2026-03-22 09:34:40 +09:00
..

tags
tags
research
rag
robeing
index

RAG 리서치 인덱스

목적

  • 로빙이 PDF, HWP, DOCX, XLSX, PPTX, JPG, PNG, 동영상 등 여러 형식의 데이터를 읽고 처리하는 방식을 리서치 단위로 분리 정리한다.
  • 문서 중간표현, 메타데이터, OCR, 벡터 검색, PostgreSQL 기반 그래프 확장까지 단계별로 분리해 SSOT 후보를 만든다.
  • 아직 구현·운영에서 완전히 고정되지 않은 내용은 research에 두고, 반복 검증된 것만 plans, worklog, 0_VALUE로 승격한다.

2026-03-20 추가된 문서

읽는 순서 추천

  1. 전체 방향: 다형식문서 RAG 자동수집·정규화 전략
  2. 중간표현 원칙: MD 중간표현 SSOT 설계
  3. 메타데이터 범위: Front Matter 메타데이터 설계
  4. 비용 절감 정책: OCR 선별 적용 정책
  5. 실제 저장 구조: PGVector·JSONB RAG 스키마 설계
  6. 연결성 확장: PostgreSQL 그래프 확장 설계

이번 묶음의 핵심 결론

  • 원본 파일은 보존하고, 로빙이 읽는 중간표현은 파일 1개 : MD 1개 구조를 기본으로 잡는다.
  • 검색용 메타와 운영용 메타는 front matter와 PostgreSQL JSONB에 동시에 반영 가능한 형태로 설계한다.
  • OCR과 LLM은 전수 적용이 아니라 선별 적용으로 비용과 시간을 제어한다.
  • 벡터 검색, 키워드 검색, 문서 연결 탐색은 분리하지 않고 PostgreSQL 중심으로 묶는 편이 현재 로빙 운영에 가장 실용적이다.