- 아이디어 1: 계획 1~3차 + 적용1로 채택 완료 - 2차 계획: PGVector 적재 + tsvector + 하이브리드 + AGE 구현 완료 - 리서치 6: 설계 목적 달성, Unresolved는 후속 문서로 이관 - 남은 열린 문서: 1차 계획(본문 미추출), 3차 계획(OCR/동기화) Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>
4.3 KiB
4.3 KiB
tags, type, status, closed_date, closed_reason, research_target
| tags | type | status | closed_date | closed_reason | research_target | ||||||
|---|---|---|---|---|---|---|---|---|---|---|---|
|
research | closed | 2026-03-22 | 설계 목적 달성, 200개 대상 구현 완료, Unresolved는 3차 계획 또는 후속 문서로 이관 | 다형식 원본을 위한 Markdown 중간표현 SSOT 규칙 정리 |
Markdown 중간표현 SSOT 설계 리서치
상태
- proposed
작성일: 2026-03-20
목적: 다형식 원본을 로빙이 안정적으로 읽을 수 있도록 Markdown 중간표현의 역할과 규칙을 정리한다.
1. 결론
- Markdown은 최종 저장형이 아니라 표준 중간표현으로 두는 것이 맞다.
- 원본 파일을 Markdown으로 "대체"하는 것이 아니라, 원본을 설명하고 로빙이 읽기 쉽게 정규화한 파생본으로 보는 것이 맞다.
파일 1개 : MD 1개구조가 가장 단순하고 운영 가능성이 높다.
2. 왜 Markdown인가
- 사람 검토가 쉽다.
- LLM이 잘 읽는다.
- front matter를 붙이기 쉽다.
- OCR 추가 결과, 요약, 링크, 표 변환 결과를 누적하기 쉽다.
- 향후 임베딩 모델이 바뀌어도 같은 문서를 재활용하기 쉽다.
3. 파일명 규칙 제안
- 기본 규칙: 원본 파일명 유지 + 원본 확장자 표시 +
.md - 예시:
사업계획서.pdf -> 사업계획서_pdf.md로고 시안.jpg -> 로고 시안_jpg.md매출 보고서 2025.hwp -> 매출 보고서 2025_hwp.md
4. 폴더 구조 규칙 제안
- 원본 폴더 구조는 유지한다.
- 요약/정규화 저장소도 같은 상대 경로를 따라간다.
- 예시:
- 원본:
.../부서A/2025/매출.pdf - 파생:
.../부서A/2025/매출_pdf.md
- 원본:
5. 파일 종류별 중간표현 방식
| 파일 타입 | Markdown에 담을 핵심 |
|---|---|
| 추출 텍스트, 표, 이미지/페이지 정보, OCR 상태 | |
| HWP/DOCX | 제목, 본문, 표, 문단 구조 |
| XLSX | 시트별 표, 주요 숫자, 차트 존재 여부 |
| PPTX | 슬라이드별 제목, 본문, 도형/표/이미지 요약 |
| JPG/PNG | 파일 정보, OCR 텍스트, 이미지 설명, 원본 경로 |
| MP4/MOV | 파일 정보, 자막 추출 상태, 프레임/오디오 처리 상태 |
6. Markdown 본문 템플릿 제안
- front matter
- 문서 개요
- 원본 파일 정보
- 자동 추출 본문
- 표/이미지/슬라이드 섹션
- 후처리 섹션
- OCR/LLM 보강 섹션
7. 내가 추천하는 운영 원칙
- 원본은 절대 덮어쓰지 않는다.
- Markdown은 재생성 가능해야 한다.
- 사람이 수정한 영역과 자동 생성 영역을 구분하는 편이 좋다.
- OCR/요약/태그 같은 후속 보강은 기존 MD에 누적 가능해야 한다.
- 모든 MD는 원본 경로를 항상 포함해야 한다.
8. Markdown을 쓰지 말아야 하는 경우
- 원본 레이아웃 자체가 법적 증거 수준으로 보존돼야 하는 경우
- CAD, 3D, 바이너리 포맷처럼 텍스트 기반 중간표현이 거의 무의미한 경우
- 극단적으로 짧고 메타만 의미 있는 파일
9. 이번 단계 추천
- 먼저 모든 파일에 대해 최소 MD를 만든다.
- 최소 MD에는 "이 파일이 무엇인지"와 "현재 어느 정도까지 해석됐는지"만 적어도 된다.
- 이후 표 추출, OCR, 요약, 태그는 후속 배치로 누적하는 구조가 좋다.
현재 상태 보정 (2026-03-22)
- MD 파생본: 48,906개 생성 완료. 본문 text_length: 0이 48,744건(99.7% 미추출).
- NAS 원본: /mnt/nas/workspace/6.Company X — 53,249파일.
- OCR: 미구현. 본문 채움의 핵심 과제가 여전히 열려 있다.
- DB 적재: team_document 1,174건 / team_document_chunk 3,474건 (임베딩: Gemini Embedding 2, 768d).
Unresolved
- 99.7% 본문 미추출 상태를 어떤 우선순위와 배치로 해소할지 아직 정해지지 않았다.
- 원본 53,249건과 MD 48,906건의 차이를 설명하는 실패/스킵 기준이 문서화되지 않았다.