DOCS/journey/ideas/260320_다형식문서_자동지식화_RAG_파이프라인_아이디어.md
2026-03-20 13:00:00 +09:00

3.0 KiB

tags: [robeing, idea, rag, multimodal, markdown, pgvector, postgres]

260320 다형식문서 자동지식화 RAG 파이프라인 아이디어

목적

  • 로빙이 회사의 대량 파일 자산을 읽고, 정리하고, 검색하고, 답변 근거로 사용할 수 있는 자동 지식화 파이프라인의 큰 그림을 고정한다.
  • 대상은 PDF, HWP, DOCX, XLSX, PPTX, JPG, PNG, 동영상 등 다형식 파일 전체다.
  • 이 아이디어 문서는 세부 기술 결정을 모두 확정하는 문서가 아니라, 왜 이 흐름으로 가는가를 한 장으로 묶는 용도다.

핵심 아이디어

  • 원본 파일은 그대로 둔다.
  • 각 원본 파일마다 대응하는 Markdown 파생본을 만든다.
  • Markdown에는 front matter와 기본 설명, 요약, 처리 상태를 붙인다.
  • PostgreSQL에서 JSONB, PGVector, 관계 테이블을 함께 써서 메타 + 벡터 + 연결성을 한 곳에서 관리한다.
  • 파일이 생성·수정·삭제되면 같은 흐름으로 다시 정리한다.

왜 이 구조가 맞는가

  • 원본 파일 형식이 너무 다양해서, 로빙이 매번 원본 포맷에 직접 의존하면 운영이 무너진다.
  • Markdown은 사람과 LLM이 동시에 읽기 쉬운 공통 중간표현이다.
  • front matter와 JSONB 메타는 검색, 필터링, OCR 선별, 동기화 판단에 모두 재사용된다.
  • PGVector는 의미 검색을 맡고, PostgreSQL 관계 구조는 연결 탐색을 맡는다.
  • 이 구조는 지금 로빙의 범위에서 과하지 않고, 나중에 더 크게 키워도 버티는 방향이다.

단계 구분

1차

  • 원본 스캔
  • 파일별 MD 생성
  • front matter 최소 메타 생성
  • 요약/설명 기본값 생성

2차

  • PostgreSQL 적재
  • JSONB 메타 관리
  • 청크 분리
  • PGVector 임베딩/검색 붙이기

3차

  • OCR 선별 적용
  • 문서 관계 확장
  • 동기화 자동화
  • 품질 측정 및 재처리 정책화

로빙 적용 1

  • 로빙 질의 경로에 이 저장 계층을 실제 연결한다.
  • 질문이 들어왔을 때 메타 필터 + 벡터 검색 + 관계 확장을 거쳐 근거 문서를 회수하는 최소 폐회로를 만든다.

이번 아이디어의 기준 문서

다음 단계