- 260312/260315/260316 계열 트러블/리서치/계획/시나리오/워크로그 - 본문에만 닫힘 표기되어 있던 문서에 status: closed 프론트메타 추가 - 열린 문서는 260320 다형식문서 RAG 체인 10개만 남음 Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>
tags
| tags | ||||
|---|---|---|---|---|
|
RAG 리서치 인덱스
목적
- 로빙이 PDF, HWP, DOCX, XLSX, PPTX, JPG, PNG, 동영상 등 여러 형식의 데이터를 읽고 처리하는 방식을 리서치 단위로 분리 정리한다.
- 문서 중간표현, 메타데이터, OCR, 벡터 검색, PostgreSQL 기반 그래프 확장까지 단계별로 분리해 SSOT 후보를 만든다.
- 아직 구현·운영에서 완전히 고정되지 않은 내용은
research에 두고, 반복 검증된 것만plans,worklog,0_VALUE로 승격한다.
2026-03-20 추가된 문서
- 다형식 문서 RAG 자동수집·정규화 전략 리서치
- Markdown 중간표현 SSOT 설계 리서치
- Front Matter 메타데이터 설계 리서치
- OCR 선별 적용 정책 리서치
- PGVector·JSONB RAG 스키마 설계 리서치
- PostgreSQL 그래프 확장 설계 리서치
읽는 순서 추천
- 전체 방향:
다형식문서 RAG 자동수집·정규화 전략 - 중간표현 원칙:
MD 중간표현 SSOT 설계 - 메타데이터 범위:
Front Matter 메타데이터 설계 - 비용 절감 정책:
OCR 선별 적용 정책 - 실제 저장 구조:
PGVector·JSONB RAG 스키마 설계 - 연결성 확장:
PostgreSQL 그래프 확장 설계
이번 묶음의 핵심 결론
- 원본 파일은 보존하고, 로빙이 읽는 중간표현은
파일 1개 : MD 1개구조를 기본으로 잡는다. - 검색용 메타와 운영용 메타는 front matter와 PostgreSQL JSONB에 동시에 반영 가능한 형태로 설계한다.
- OCR과 LLM은 전수 적용이 아니라 선별 적용으로 비용과 시간을 제어한다.
- 벡터 검색, 키워드 검색, 문서 연결 탐색은 분리하지 않고 PostgreSQL 중심으로 묶는 편이 현재 로빙 운영에 가장 실용적이다.