happybell80 6c37b1afc7 close: RAG 관련 문서 5건 프론트메타로 닫기
- 260312 리서치: 근거응답 현황 → closed
- 260315 리서치: 답변합성 시나리오동시종결 → closed
- 260321 리서치: keyword recall0 원인확정 → closed
- 260320 적용1 계획: 검증 16개 기입 완료 → closed
- 260321 품질개선 계획: P0+P1 완료 → closed

Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>
2026-03-21 16:30:07 +09:00
..

tags
tags
research
rag
robeing
index

RAG 리서치 인덱스

목적

  • 로빙이 PDF, HWP, DOCX, XLSX, PPTX, JPG, PNG, 동영상 등 여러 형식의 데이터를 읽고 처리하는 방식을 리서치 단위로 분리 정리한다.
  • 문서 중간표현, 메타데이터, OCR, 벡터 검색, PostgreSQL 기반 그래프 확장까지 단계별로 분리해 SSOT 후보를 만든다.
  • 아직 구현·운영에서 완전히 고정되지 않은 내용은 research에 두고, 반복 검증된 것만 plans, worklog, 0_VALUE로 승격한다.

2026-03-20 추가된 문서

읽는 순서 추천

  1. 전체 방향: 다형식문서 RAG 자동수집·정규화 전략
  2. 중간표현 원칙: MD 중간표현 SSOT 설계
  3. 메타데이터 범위: Front Matter 메타데이터 설계
  4. 비용 절감 정책: OCR 선별 적용 정책
  5. 실제 저장 구조: PGVector·JSONB RAG 스키마 설계
  6. 연결성 확장: PostgreSQL 그래프 확장 설계

이번 묶음의 핵심 결론

  • 원본 파일은 보존하고, 로빙이 읽는 중간표현은 파일 1개 : MD 1개 구조를 기본으로 잡는다.
  • 검색용 메타와 운영용 메타는 front matter와 PostgreSQL JSONB에 동시에 반영 가능한 형태로 설계한다.
  • OCR과 LLM은 전수 적용이 아니라 선별 적용으로 비용과 시간을 제어한다.
  • 벡터 검색, 키워드 검색, 문서 연결 탐색은 분리하지 않고 PostgreSQL 중심으로 묶는 편이 현재 로빙 운영에 가장 실용적이다.