- 트러블: simple 토크나이저 한국어 구조적 한계 확정
- 리서치: MeCab-ko(근본 해결) vs pg_trgm(물리적 보완) 비교
- 근본 해결 1순위: MeCab-ko, 현실적 1단계: pg_trgm (보완 명시 필수)
Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>
- A1: 이미지 PDF chunk_text OCR 깨짐 → 파일명 보조 검색으로 해소
- B: grounding 독립 검색 → 이전 결과 컨텍스트 전달
- 테스트 결과 A 5건 기록 (3 PASS, 2 FAIL)
Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>
- 아이디어 1: 계획 1~3차 + 적용1로 채택 완료
- 2차 계획: PGVector 적재 + tsvector + 하이브리드 + AGE 구현 완료
- 리서치 6: 설계 목적 달성, Unresolved는 후속 문서로 이관
- 남은 열린 문서: 1차 계획(본문 미추출), 3차 계획(OCR/동기화)
Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>
- 리서치 6건 + 1차 계획 + 아이디어: 현재 상태 보정 섹션 통일
- tsvector/하이브리드/AGE 구현 완료 반영, DB 수치 갱신
- 설계 별칭-운영 실체 매핑 명시, Unresolved 보강
Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>
- 260312/260315/260316 계열 트러블/리서치/계획/시나리오/워크로그
- 본문에만 닫힘 표기되어 있던 문서에 status: closed 프론트메타 추가
- 열린 문서는 260320 다형식문서 RAG 체인 10개만 남음
Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>
- 옐로펀치 MOU: 인덱싱 완료, 임베딩 정상, 문서간 유사도 0.8+
- 쿼리 임베딩과 문서 청크 간 cosine 거리가 멀어 top-50에도 미등장
- Gemini 비대칭 임베딩(RETRIEVAL_QUERY vs DOCUMENT)의 한계 확인
- keyword 보완 실패와 합쳐 이중 실패 구조 확정
Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>
- threshold 0.35에서 ts_rank 최대 0.089이므로 전부 필터링되는 문제 확인
- 교착어 미처리와 threshold 불일치가 중첩 원인임을 명시
- 우선순위 1(즉시 적용): threshold 분리 + prefix 매칭 동시 적용 제안
Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>
- RRF 점수(0.01~0.03)가 threshold(0.35)와 스케일 불일치 확인
- vector_score OR 조건으로 우회되지만 relevance_score 기준 정렬에 영향
- 실측 데이터 추가 (hybrid rrf=0.032 vs vector=0.775)
Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>
- keyword recall 0: simple 토크나이저가 한국어 조사 분리 불가 (실측 recall 27%)
- grounding 실패 3계층: 검색(8건), 라우팅 마커(3건), LLM 판단(정상)
- prefix 매칭(:*) 적용 시 recall 27%→90% 즉시 개선 가능
Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>
1차 (로빙, 완전 닫힘 가능):
- 트러블, 리서치, 플랜
- skill-embedding, skill-rag-file, rb8001
- 닫힘 조건 명확
2차 (StarsAndI·GooseCouncil, 열어둠):
- 트러블, 리서치, 플랜
- 카탈로그 5044개 재임베딩 등 비용 큰 항목
- 1차 완료 후 진행
기존 3개 문서: 1차·2차 링크로 리다이렉트
Made-with: Cursor
- 신규: 260316_임베딩_전체프로젝트_현황_및_SSOT_리서치
- robeing, StarsAndI, TheGooseCouncil, companyx 등 전수 조사
- 0_VALUE 정책 불일치 요약, SSOT 설정 방안
- 트러블-리서치 연결: 이 문서가 여는 리서치 섹션 추가
- 260315: 전수 교체 정책 반영, 현황 리서치 링크
- 계획: 전수 교체 목표, 전체 프로젝트 적용 범위
Made-with: Cursor
- 7-8월 초기 구축 문서 12개를 _archive/troubleshooting/2025_07-08_initial_setup/로 이동
- book/300_architecture/390_human_in_the_loop_intent_learning.md를 journey/research/intent_classification/로 이동 (개발 여정 문서)
- 빈 폴더 제거 (journey/assets/*)