--- tags: [research, rag, robeing, index] --- # RAG 리서치 인덱스 ## 목적 - 로빙이 PDF, HWP, DOCX, XLSX, PPTX, JPG, PNG, 동영상 등 여러 형식의 데이터를 읽고 처리하는 방식을 리서치 단위로 분리 정리한다. - 문서 중간표현, 메타데이터, OCR, 벡터 검색, PostgreSQL 기반 그래프 확장까지 단계별로 분리해 SSOT 후보를 만든다. - 아직 구현·운영에서 완전히 고정되지 않은 내용은 `research`에 두고, 반복 검증된 것만 `plans`, `worklog`, `0_VALUE`로 승격한다. ## 2026-03-20 추가된 문서 - [다형식 문서 RAG 자동수집·정규화 전략 리서치](./260320_다형식문서_RAG_자동수집_정규화_전략_리서치.md) - [Markdown 중간표현 SSOT 설계 리서치](./260320_MD_중간표현_SSOT_설계_리서치.md) - [Front Matter 메타데이터 설계 리서치](./260320_FrontMatter_메타데이터_설계_리서치.md) - [OCR 선별 적용 정책 리서치](./260320_OCR_선별적용_정책_리서치.md) - [PGVector·JSONB RAG 스키마 설계 리서치](./260320_PGVector_JSONB_RAG_스키마_설계_리서치.md) - [PostgreSQL 그래프 확장 설계 리서치](./260320_PostgreSQL_그래프확장_설계_리서치.md) ## 읽는 순서 추천 1. 전체 방향: `다형식문서 RAG 자동수집·정규화 전략` 2. 중간표현 원칙: `MD 중간표현 SSOT 설계` 3. 메타데이터 범위: `Front Matter 메타데이터 설계` 4. 비용 절감 정책: `OCR 선별 적용 정책` 5. 실제 저장 구조: `PGVector·JSONB RAG 스키마 설계` 6. 연결성 확장: `PostgreSQL 그래프 확장 설계` ## 이번 묶음의 핵심 결론 - 원본 파일은 보존하고, 로빙이 읽는 중간표현은 `파일 1개 : MD 1개` 구조를 기본으로 잡는다. - 검색용 메타와 운영용 메타는 front matter와 PostgreSQL JSONB에 동시에 반영 가능한 형태로 설계한다. - OCR과 LLM은 전수 적용이 아니라 선별 적용으로 비용과 시간을 제어한다. - 벡터 검색, 키워드 검색, 문서 연결 탐색은 분리하지 않고 PostgreSQL 중심으로 묶는 편이 현재 로빙 운영에 가장 실용적이다.