- 아이디어: 표준 JSON 출력 인터페이스 초안, OpenClaw 커넥터 패턴, 메시지 버스 트렌드 반영
- 리서치: 현재 코드 기반 실현 경로 4단계, Facts 6건, Unresolved 3건
Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>
- MeCab-ko: 2026년 유지보수 중단, 사전 노후, PG14 EOL 고려 → 비권장
- pg_trgm: 키워드 축 복구용 병렬 매칭 엔진으로 재정의 (우회가 아님)
- 로빙이 이미 pgvector+하이브리드 운용 중이라는 현실 반영
Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>
- 트러블: simple 토크나이저 한국어 구조적 한계 확정
- 리서치: MeCab-ko(근본 해결) vs pg_trgm(물리적 보완) 비교
- 근본 해결 1순위: MeCab-ko, 현실적 1단계: pg_trgm (보완 명시 필수)
Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>
- A1: 이미지 PDF chunk_text OCR 깨짐 → 파일명 보조 검색으로 해소
- B: grounding 독립 검색 → 이전 결과 컨텍스트 전달
- 테스트 결과 A 5건 기록 (3 PASS, 2 FAIL)
Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>
- 아이디어 1: 계획 1~3차 + 적용1로 채택 완료
- 2차 계획: PGVector 적재 + tsvector + 하이브리드 + AGE 구현 완료
- 리서치 6: 설계 목적 달성, Unresolved는 후속 문서로 이관
- 남은 열린 문서: 1차 계획(본문 미추출), 3차 계획(OCR/동기화)
Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>
- 리서치 6건 + 1차 계획 + 아이디어: 현재 상태 보정 섹션 통일
- tsvector/하이브리드/AGE 구현 완료 반영, DB 수치 갱신
- 설계 별칭-운영 실체 매핑 명시, Unresolved 보강
Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>
- 260312/260315/260316 계열 트러블/리서치/계획/시나리오/워크로그
- 본문에만 닫힘 표기되어 있던 문서에 status: closed 프론트메타 추가
- 열린 문서는 260320 다형식문서 RAG 체인 10개만 남음
Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>
- 옐로펀치 MOU: 인덱싱 완료, 임베딩 정상, 문서간 유사도 0.8+
- 쿼리 임베딩과 문서 청크 간 cosine 거리가 멀어 top-50에도 미등장
- Gemini 비대칭 임베딩(RETRIEVAL_QUERY vs DOCUMENT)의 한계 확인
- keyword 보완 실패와 합쳐 이중 실패 구조 확정
Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>
- threshold 0.35에서 ts_rank 최대 0.089이므로 전부 필터링되는 문제 확인
- 교착어 미처리와 threshold 불일치가 중첩 원인임을 명시
- 우선순위 1(즉시 적용): threshold 분리 + prefix 매칭 동시 적용 제안
Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>
- RRF 점수(0.01~0.03)가 threshold(0.35)와 스케일 불일치 확인
- vector_score OR 조건으로 우회되지만 relevance_score 기준 정렬에 영향
- 실측 데이터 추가 (hybrid rrf=0.032 vs vector=0.775)
Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>
- keyword recall 0: simple 토크나이저가 한국어 조사 분리 불가 (실측 recall 27%)
- grounding 실패 3계층: 검색(8건), 라우팅 마커(3건), LLM 판단(정상)
- prefix 매칭(:*) 적용 시 recall 27%→90% 즉시 개선 가능
Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>
- 검색 경로에 벡터+키워드+그래프 RRF 합산 명시
- Storage에 AGE 추가
- Question Types 4종 섹션 추가
- Response Shape를 Pydantic 모델 기준으로 갱신
Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>
- SKILL.md: ChromaDB 병행 → pgvector 단일 운영, 대표 파일 2개 → 200개 인덱싱 현황으로 갱신
- 1차 계획: 완료 조건에 본문 미추출(99.7%) 미완료 상태 명시, 1:1 대응 차이 수치 반영
- 적용1 계획: 샘플 질문 16개 검증 결과 기록 테이블 추가
Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>