---
tags: [research, rag, robeing, index]
---

# RAG 리서치 인덱스

## 목적

- 로빙이 PDF, HWP, DOCX, XLSX, PPTX, JPG, PNG, 동영상 등 여러 형식의 데이터를 읽고 처리하는 방식을 리서치 단위로 분리 정리한다.
- 문서 중간표현, 메타데이터, OCR, 벡터 검색, PostgreSQL 기반 그래프 확장까지 단계별로 분리해 SSOT 후보를 만든다.
- 아직 구현·운영에서 완전히 고정되지 않은 내용은 `research`에 두고, 반복 검증된 것만 `plans`, `worklog`, `0_VALUE`로 승격한다.

## 2026-03-20 추가된 문서

- [다형식 문서 RAG 자동수집·정규화 전략 리서치](./260320_다형식문서_RAG_자동수집_정규화_전략_리서치.md)
- [Markdown 중간표현 SSOT 설계 리서치](./260320_MD_중간표현_SSOT_설계_리서치.md)
- [Front Matter 메타데이터 설계 리서치](./260320_FrontMatter_메타데이터_설계_리서치.md)
- [OCR 선별 적용 정책 리서치](./260320_OCR_선별적용_정책_리서치.md)
- [PGVector·JSONB RAG 스키마 설계 리서치](./260320_PGVector_JSONB_RAG_스키마_설계_리서치.md)
- [PostgreSQL 그래프 확장 설계 리서치](./260320_PostgreSQL_그래프확장_설계_리서치.md)

## 읽는 순서 추천

1. 전체 방향: `다형식문서 RAG 자동수집·정규화 전략`
2. 중간표현 원칙: `MD 중간표현 SSOT 설계`
3. 메타데이터 범위: `Front Matter 메타데이터 설계`
4. 비용 절감 정책: `OCR 선별 적용 정책`
5. 실제 저장 구조: `PGVector·JSONB RAG 스키마 설계`
6. 연결성 확장: `PostgreSQL 그래프 확장 설계`

## 이번 묶음의 핵심 결론

- 원본 파일은 보존하고, 로빙이 읽는 중간표현은 `파일 1개 : MD 1개` 구조를 기본으로 잡는다.
- 검색용 메타와 운영용 메타는 front matter와 PostgreSQL JSONB에 동시에 반영 가능한 형태로 설계한다.
- OCR과 LLM은 전수 적용이 아니라 선별 적용으로 비용과 시간을 제어한다.
- 벡터 검색, 키워드 검색, 문서 연결 탐색은 분리하지 않고 PostgreSQL 중심으로 묶는 편이 현재 로빙 운영에 가장 실용적이다.