--- tags: [research, rag, robeing, markdown, ssot, intermediate-format] type: research status: closed closed_date: 2026-03-22 closed_reason: 설계 목적 달성, 200개 대상 구현 완료, Unresolved는 3차 계획 또는 후속 문서로 이관 research_target: 다형식 원본을 위한 Markdown 중간표현 SSOT 규칙 정리 --- # Markdown 중간표현 SSOT 설계 리서치 ## 상태 - proposed **작성일**: 2026-03-20 **목적**: 다형식 원본을 로빙이 안정적으로 읽을 수 있도록 Markdown 중간표현의 역할과 규칙을 정리한다. --- ## 1. 결론 - Markdown은 최종 저장형이 아니라 **표준 중간표현**으로 두는 것이 맞다. - 원본 파일을 Markdown으로 "대체"하는 것이 아니라, 원본을 설명하고 로빙이 읽기 쉽게 정규화한 파생본으로 보는 것이 맞다. - `파일 1개 : MD 1개` 구조가 가장 단순하고 운영 가능성이 높다. ## 2. 왜 Markdown인가 - 사람 검토가 쉽다. - LLM이 잘 읽는다. - front matter를 붙이기 쉽다. - OCR 추가 결과, 요약, 링크, 표 변환 결과를 누적하기 쉽다. - 향후 임베딩 모델이 바뀌어도 같은 문서를 재활용하기 쉽다. ## 3. 파일명 규칙 제안 - 기본 규칙: 원본 파일명 유지 + 원본 확장자 표시 + `.md` - 예시: - `사업계획서.pdf -> 사업계획서_pdf.md` - `로고 시안.jpg -> 로고 시안_jpg.md` - `매출 보고서 2025.hwp -> 매출 보고서 2025_hwp.md` ## 4. 폴더 구조 규칙 제안 - 원본 폴더 구조는 유지한다. - 요약/정규화 저장소도 같은 상대 경로를 따라간다. - 예시: - 원본: `.../부서A/2025/매출.pdf` - 파생: `.../부서A/2025/매출_pdf.md` ## 5. 파일 종류별 중간표현 방식 | 파일 타입 | Markdown에 담을 핵심 | |-----------|----------------------| | PDF | 추출 텍스트, 표, 이미지/페이지 정보, OCR 상태 | | HWP/DOCX | 제목, 본문, 표, 문단 구조 | | XLSX | 시트별 표, 주요 숫자, 차트 존재 여부 | | PPTX | 슬라이드별 제목, 본문, 도형/표/이미지 요약 | | JPG/PNG | 파일 정보, OCR 텍스트, 이미지 설명, 원본 경로 | | MP4/MOV | 파일 정보, 자막 추출 상태, 프레임/오디오 처리 상태 | ## 6. Markdown 본문 템플릿 제안 1. front matter 2. 문서 개요 3. 원본 파일 정보 4. 자동 추출 본문 5. 표/이미지/슬라이드 섹션 6. 후처리 섹션 7. OCR/LLM 보강 섹션 ## 7. 내가 추천하는 운영 원칙 - 원본은 절대 덮어쓰지 않는다. - Markdown은 재생성 가능해야 한다. - 사람이 수정한 영역과 자동 생성 영역을 구분하는 편이 좋다. - OCR/요약/태그 같은 후속 보강은 기존 MD에 누적 가능해야 한다. - 모든 MD는 원본 경로를 항상 포함해야 한다. ## 8. Markdown을 쓰지 말아야 하는 경우 - 원본 레이아웃 자체가 법적 증거 수준으로 보존돼야 하는 경우 - CAD, 3D, 바이너리 포맷처럼 텍스트 기반 중간표현이 거의 무의미한 경우 - 극단적으로 짧고 메타만 의미 있는 파일 ## 9. 이번 단계 추천 - 먼저 모든 파일에 대해 최소 MD를 만든다. - 최소 MD에는 "이 파일이 무엇인지"와 "현재 어느 정도까지 해석됐는지"만 적어도 된다. - 이후 표 추출, OCR, 요약, 태그는 후속 배치로 누적하는 구조가 좋다. ## 현재 상태 보정 (2026-03-22) - MD 파생본: 48,906개 생성 완료. 본문 text_length: 0이 48,744건(99.7% 미추출). - NAS 원본: /mnt/nas/workspace/6.Company X — 53,249파일. - OCR: 미구현. 본문 채움의 핵심 과제가 여전히 열려 있다. - DB 적재: team_document 1,174건 / team_document_chunk 3,474건 (임베딩: Gemini Embedding 2, 768d). ## Unresolved - 99.7% 본문 미추출 상태를 어떤 우선순위와 배치로 해소할지 아직 정해지지 않았다. - 원본 53,249건과 MD 48,906건의 차이를 설명하는 실패/스킵 기준이 문서화되지 않았다. ## 10. 관련 문서 - [다형식 문서 RAG 자동수집·정규화 전략 리서치](./260320_다형식문서_RAG_자동수집_정규화_전략_리서치.md) - [Front Matter 메타데이터 설계 리서치](./260320_FrontMatter_메타데이터_설계_리서치.md) - [OCR 선별 적용 정책 리서치](./260320_OCR_선별적용_정책_리서치.md)