History

happybell80 6c37b1afc7 close: RAG 관련 문서 5건 프론트메타로 닫기

- 260312 리서치: 근거응답 현황 → closed
- 260315 리서치: 답변합성 시나리오동시종결 → closed
- 260321 리서치: keyword recall0 원인확정 → closed
- 260320 적용1 계획: 검증 16개 기입 완료 → closed
- 260321 품질개선 계획: P0+P1 완료 → closed

Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>

2026-03-21 16:30:07 +09:00

251110_gemini_file_search_api_테스트_및_콜드메일_개선방안_평가.md

docs: 오래된 트러블슈팅 아카이브 및 구조 정리

2025-11-17 14:06:05 +09:00

260315_Gemini_Embedding_2_리서치_비용_청킹_도입검토.md

docs: Company X RAG 시나리오·아이디어·리서치·계획 현행화, Gemini Embedding 2 리서치 보강

2026-03-17 20:02:22 +09:00

260316_임베딩_1차_로빙_현황_SSOT_리서치.md

Close Gemini embedding phase one

2026-03-16 23:35:19 +09:00

260316_임베딩_2차_StarsAndI_GooseCouncil_현황_리서치.md

docs: 임베딩 전환 1차·2차 분리 (6개 문서)

2026-03-16 13:22:59 +09:00

260316_임베딩_전체프로젝트_현황_및_SSOT_리서치.md

docs(1차): 임베딩 문제·리서치·계획 문서 보강, 계획 95%+ 완성도

2026-03-16 13:45:15 +09:00

260320_FrontMatter_메타데이터_설계_리서치.md

docs: add multimodal rag research set

2026-03-20 12:43:52 +09:00

260320_MD_중간표현_SSOT_설계_리서치.md

docs: add multimodal rag research set

2026-03-20 12:43:52 +09:00

260320_OCR_모델_벤치마크_리서치.md

docs: OCR 모델 벤치마크 리서치 추가, skill-rag-file에 OCR 모델(gemini-2.0-flash) 기록

2026-03-21 10:44:57 +09:00

260320_OCR_선별적용_정책_리서치.md

docs: add multimodal rag research set

2026-03-20 12:43:52 +09:00

260320_PGVector_JSONB_RAG_스키마_설계_리서치.md

docs: add multimodal rag research set

2026-03-20 12:43:52 +09:00

260320_PostgreSQL_그래프확장_설계_리서치.md

docs: 그래프 확장 방향 변경 — 재귀 CTE에서 Apache AGE로, 계획 문서에 링크 반영

2026-03-20 17:36:37 +09:00

260320_다형식문서_RAG_자동수집_정규화_전략_리서치.md

docs: add multimodal rag research set

2026-03-20 12:43:52 +09:00

260321_하이브리드검색_keyword_recall0_및_grounding_실패_원인확정_리서치.md

close: RAG 관련 문서 5건 프론트메타로 닫기

2026-03-21 16:30:07 +09:00

README.md

docs: add multimodal rag research set

2026-03-20 12:43:52 +09:00

README.md

RAG 리서치 인덱스

목적

로빙이 PDF, HWP, DOCX, XLSX, PPTX, JPG, PNG, 동영상 등 여러 형식의 데이터를 읽고 처리하는 방식을 리서치 단위로 분리 정리한다.
문서 중간표현, 메타데이터, OCR, 벡터 검색, PostgreSQL 기반 그래프 확장까지 단계별로 분리해 SSOT 후보를 만든다.
아직 구현·운영에서 완전히 고정되지 않은 내용은 research에 두고, 반복 검증된 것만 plans, worklog, 0_VALUE로 승격한다.

2026-03-20 추가된 문서

읽는 순서 추천

전체 방향: 다형식문서 RAG 자동수집·정규화 전략
중간표현 원칙: MD 중간표현 SSOT 설계
메타데이터 범위: Front Matter 메타데이터 설계
비용 절감 정책: OCR 선별 적용 정책
실제 저장 구조: PGVector·JSONB RAG 스키마 설계
연결성 확장: PostgreSQL 그래프 확장 설계

이번 묶음의 핵심 결론

원본 파일은 보존하고, 로빙이 읽는 중간표현은 파일 1개 : MD 1개 구조를 기본으로 잡는다.
검색용 메타와 운영용 메타는 front matter와 PostgreSQL JSONB에 동시에 반영 가능한 형태로 설계한다.
OCR과 LLM은 전수 적용이 아니라 선별 적용으로 비용과 시간을 제어한다.
벡터 검색, 키워드 검색, 문서 연결 탐색은 분리하지 않고 PostgreSQL 중심으로 묶는 편이 현재 로빙 운영에 가장 실용적이다.