- 아이디어 1: 계획 1~3차 + 적용1로 채택 완료
- 2차 계획: PGVector 적재 + tsvector + 하이브리드 + AGE 구현 완료
- 리서치 6: 설계 목적 달성, Unresolved는 후속 문서로 이관
- 남은 열린 문서: 1차 계획(본문 미추출), 3차 계획(OCR/동기화)
Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>
- 리서치 6건 + 1차 계획 + 아이디어: 현재 상태 보정 섹션 통일
- tsvector/하이브리드/AGE 구현 완료 반영, DB 수치 갱신
- 설계 별칭-운영 실체 매핑 명시, Unresolved 보강
Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>
- 260312/260315/260316 계열 트러블/리서치/계획/시나리오/워크로그
- 본문에만 닫힘 표기되어 있던 문서에 status: closed 프론트메타 추가
- 열린 문서는 260320 다형식문서 RAG 체인 10개만 남음
Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>
- 옐로펀치 MOU: 인덱싱 완료, 임베딩 정상, 문서간 유사도 0.8+
- 쿼리 임베딩과 문서 청크 간 cosine 거리가 멀어 top-50에도 미등장
- Gemini 비대칭 임베딩(RETRIEVAL_QUERY vs DOCUMENT)의 한계 확인
- keyword 보완 실패와 합쳐 이중 실패 구조 확정
Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>
- threshold 0.35에서 ts_rank 최대 0.089이므로 전부 필터링되는 문제 확인
- 교착어 미처리와 threshold 불일치가 중첩 원인임을 명시
- 우선순위 1(즉시 적용): threshold 분리 + prefix 매칭 동시 적용 제안
Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>
- RRF 점수(0.01~0.03)가 threshold(0.35)와 스케일 불일치 확인
- vector_score OR 조건으로 우회되지만 relevance_score 기준 정렬에 영향
- 실측 데이터 추가 (hybrid rrf=0.032 vs vector=0.775)
Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>
- keyword recall 0: simple 토크나이저가 한국어 조사 분리 불가 (실측 recall 27%)
- grounding 실패 3계층: 검색(8건), 라우팅 마커(3건), LLM 판단(정상)
- prefix 매칭(:*) 적용 시 recall 27%→90% 즉시 개선 가능
Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>
Gemini 대화 기반 — 인제션 아키텍처, 가치 판단 필터링, 프롬프트 DB 시너지,
위키 통합, 사업화 검토, 핵심 비판 4가지, RBAC 구현 전략 정리
Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>
프롬프트 과잉 서비스 유도, OpenAI 대화 이력 미전달, 감정 constraints 무조건 주입 확인.
해결 방안 3단계 제안 (프롬프트 v2 + 이력 전달 + JSON 강제 선택적)
Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>
리서치 Fact 17: PDF만이 아닌 이미지/docx 등 모든 파일 형식을 텍스트
변환 없이 직접 임베딩해야 함을 명시. 현재 텍스트 변환 파이프라인이
Gemini Embedding 2 전환의 의미를 절반 이상 버리는 것임을 지적.
계획 Phase 0: 인덱싱 파이프라인 전환 항목 추가 (미완료).
계획 구현 원칙: 멀티모달 직접 임베딩 전환 플로우 및 기존 텍스트 추출
파이프라인 제거 방향 명시.
Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>
리서치 Fact 7: 현재 구조는 RAG가 아님을 명시. 검색만 있고 LLM 생성이
없는 규칙 기반 문자열 조합임을 지적. LLM 기반 전환 필요 방향 추가.
리서치 결론: 가장 근본 원인으로 RAG 구조 부재 추가. 구현 항목 4가지로 갱신.
계획 구현 원칙: RAG 전환 플로우(임베딩→검색→청크선별→LLM→답변) 명시.
계획 Phase 4: 규칙 문자열 조합 → LLM 호출로 대체하는 구체적 플로우 추가.
Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>
리서치 Fact 14: skill-rag-file 문서 청크가 여전히 ChromaDB에 저장 중이며
운영 원칙(PostgreSQL 중심)과 불일치 상태임을 명시.
계획 Phase 0 표: rb8001 메모리(확정)와 skill-rag-file 청크(미완료) 저장
경로를 분리해 pgvector 전환 필요 항목으로 추가.
Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>
- SKILL.md: 384d → Gemini Embedding 2 / 768d 전환 반영, PostgreSQL 저장 경로, NAS 원본 경로 추가
- 트러블슈팅: 존재하지 않는 worklog 참조 제거, 실제 코드 검토 기반 종결 근거로 교체, 잔여 조건 명시
- 시나리오: 상태를 구현완료_검증대기로 갱신, 구현 반영 상태 추가, 닫힘까지 남은 작업 4건 구체화
- 리서치: Unresolved 6건 중 확정 3건 닫기(임베딩 차원, 적합도 판정, 수치형 판정), 미확정 3건만 잔류
- 계획: Phase 0을 표 형식으로 현행화(확정/인지/미완료 구분), Phase 5 자동화+수동 검증 구체화
- 아이디어: 후속 진행 상태 및 임베딩 전환 확정 사항 추가
Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>
Gemini Embedding 2 전환 후에도 skill-rag-file 청킹 로직(char_per_token=4,
영어 기준 고정값)이 그대로이며, PDF 직접 임베딩 경로가 미구현 상태임을
미완료 항목에 명시.
Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>
1차 (로빙, 완전 닫힘 가능):
- 트러블, 리서치, 플랜
- skill-embedding, skill-rag-file, rb8001
- 닫힘 조건 명확
2차 (StarsAndI·GooseCouncil, 열어둠):
- 트러블, 리서치, 플랜
- 카탈로그 5044개 재임베딩 등 비용 큰 항목
- 1차 완료 후 진행
기존 3개 문서: 1차·2차 링크로 리다이렉트
Made-with: Cursor
- 신규: 260316_임베딩_전체프로젝트_현황_및_SSOT_리서치
- robeing, StarsAndI, TheGooseCouncil, companyx 등 전수 조사
- 0_VALUE 정책 불일치 요약, SSOT 설정 방안
- 트러블-리서치 연결: 이 문서가 여는 리서치 섹션 추가
- 260315: 전수 교체 정책 반영, 현황 리서치 링크
- 계획: 전수 교체 목표, 전체 프로젝트 적용 범위
Made-with: Cursor