History

happybell80 ad89e58179 close: 트러블+리서치+계획 3건 닫기 — 파일명 보조 검색 P0 완료, B 유형 후속 분리

Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>

2026-03-22 09:34:40 +09:00

251110_gemini_file_search_api_테스트_및_콜드메일_개선방안_평가.md

docs: 오래된 트러블슈팅 아카이브 및 구조 정리

2025-11-17 14:06:05 +09:00

260315_Gemini_Embedding_2_리서치_비용_청킹_도입검토.md

close: CompanyX RAG 계열 닫힌 문서 20건 프론트메타 일괄 반영

2026-03-22 07:59:29 +09:00

260316_임베딩_1차_로빙_현황_SSOT_리서치.md

close: CompanyX RAG 계열 닫힌 문서 20건 프론트메타 일괄 반영

2026-03-22 07:59:29 +09:00

260316_임베딩_2차_StarsAndI_GooseCouncil_현황_리서치.md

close: CompanyX RAG 계열 닫힌 문서 20건 프론트메타 일괄 반영

2026-03-22 07:59:29 +09:00

260316_임베딩_전체프로젝트_현황_및_SSOT_리서치.md

close: CompanyX RAG 계열 닫힌 문서 20건 프론트메타 일괄 반영

2026-03-22 07:59:29 +09:00

260320_FrontMatter_메타데이터_설계_리서치.md

close: RAG 열린 문서 8/10 닫기 — 200개 기준 구현 완료

2026-03-22 09:07:48 +09:00

260320_MD_중간표현_SSOT_설계_리서치.md

close: RAG 열린 문서 8/10 닫기 — 200개 기준 구현 완료

2026-03-22 09:07:48 +09:00

260320_OCR_모델_벤치마크_리서치.md

docs: OCR 모델 벤치마크 리서치 추가, skill-rag-file에 OCR 모델(gemini-2.0-flash) 기록

2026-03-21 10:44:57 +09:00

260320_OCR_선별적용_정책_리서치.md

close: RAG 열린 문서 8/10 닫기 — 200개 기준 구현 완료

2026-03-22 09:07:48 +09:00

260320_PGVector_JSONB_RAG_스키마_설계_리서치.md

close: RAG 열린 문서 8/10 닫기 — 200개 기준 구현 완료

2026-03-22 09:07:48 +09:00

260320_PostgreSQL_그래프확장_설계_리서치.md

close: RAG 열린 문서 8/10 닫기 — 200개 기준 구현 완료

2026-03-22 09:07:48 +09:00

260320_다형식문서_RAG_자동수집_정규화_전략_리서치.md

close: RAG 열린 문서 8/10 닫기 — 200개 기준 구현 완료

2026-03-22 09:07:48 +09:00

260321_하이브리드검색_keyword_recall0_및_grounding_실패_원인확정_리서치.md

close: RAG 관련 문서 5건 프론트메타로 닫기

2026-03-21 16:30:07 +09:00

260322_검색미적중_PDF바이너리청크품질_대화맥락_리서치.md

close: 트러블+리서치+계획 3건 닫기 — 파일명 보조 검색 P0 완료, B 유형 후속 분리

2026-03-22 09:34:40 +09:00

README.md

docs: add multimodal rag research set

2026-03-20 12:43:52 +09:00

README.md

RAG 리서치 인덱스

목적

로빙이 PDF, HWP, DOCX, XLSX, PPTX, JPG, PNG, 동영상 등 여러 형식의 데이터를 읽고 처리하는 방식을 리서치 단위로 분리 정리한다.
문서 중간표현, 메타데이터, OCR, 벡터 검색, PostgreSQL 기반 그래프 확장까지 단계별로 분리해 SSOT 후보를 만든다.
아직 구현·운영에서 완전히 고정되지 않은 내용은 research에 두고, 반복 검증된 것만 plans, worklog, 0_VALUE로 승격한다.

2026-03-20 추가된 문서

읽는 순서 추천

전체 방향: 다형식문서 RAG 자동수집·정규화 전략
중간표현 원칙: MD 중간표현 SSOT 설계
메타데이터 범위: Front Matter 메타데이터 설계
비용 절감 정책: OCR 선별 적용 정책
실제 저장 구조: PGVector·JSONB RAG 스키마 설계
연결성 확장: PostgreSQL 그래프 확장 설계

이번 묶음의 핵심 결론

원본 파일은 보존하고, 로빙이 읽는 중간표현은 파일 1개 : MD 1개 구조를 기본으로 잡는다.
검색용 메타와 운영용 메타는 front matter와 PostgreSQL JSONB에 동시에 반영 가능한 형태로 설계한다.
OCR과 LLM은 전수 적용이 아니라 선별 적용으로 비용과 시간을 제어한다.
벡터 검색, 키워드 검색, 문서 연결 탐색은 분리하지 않고 PostgreSQL 중심으로 묶는 편이 현재 로빙 운영에 가장 실용적이다.