DOCS/journey/research/rag/260320_MD_중간표현_SSOT_설계_리서치.md

4.1 KiB

tags, type, status, research_target
tags type status research_target
research
rag
robeing
markdown
ssot
intermediate-format
research open 다형식 원본을 위한 Markdown 중간표현 SSOT 규칙 정리

Markdown 중간표현 SSOT 설계 리서치

상태

  • proposed

작성일: 2026-03-20
목적: 다형식 원본을 로빙이 안정적으로 읽을 수 있도록 Markdown 중간표현의 역할과 규칙을 정리한다.


1. 결론

  • Markdown은 최종 저장형이 아니라 표준 중간표현으로 두는 것이 맞다.
  • 원본 파일을 Markdown으로 "대체"하는 것이 아니라, 원본을 설명하고 로빙이 읽기 쉽게 정규화한 파생본으로 보는 것이 맞다.
  • 파일 1개 : MD 1개 구조가 가장 단순하고 운영 가능성이 높다.

2. 왜 Markdown인가

  • 사람 검토가 쉽다.
  • LLM이 잘 읽는다.
  • front matter를 붙이기 쉽다.
  • OCR 추가 결과, 요약, 링크, 표 변환 결과를 누적하기 쉽다.
  • 향후 임베딩 모델이 바뀌어도 같은 문서를 재활용하기 쉽다.

3. 파일명 규칙 제안

  • 기본 규칙: 원본 파일명 유지 + 원본 확장자 표시 + .md
  • 예시:
    • 사업계획서.pdf -> 사업계획서_pdf.md
    • 로고 시안.jpg -> 로고 시안_jpg.md
    • 매출 보고서 2025.hwp -> 매출 보고서 2025_hwp.md

4. 폴더 구조 규칙 제안

  • 원본 폴더 구조는 유지한다.
  • 요약/정규화 저장소도 같은 상대 경로를 따라간다.
  • 예시:
    • 원본: .../부서A/2025/매출.pdf
    • 파생: .../부서A/2025/매출_pdf.md

5. 파일 종류별 중간표현 방식

파일 타입 Markdown에 담을 핵심
PDF 추출 텍스트, 표, 이미지/페이지 정보, OCR 상태
HWP/DOCX 제목, 본문, 표, 문단 구조
XLSX 시트별 표, 주요 숫자, 차트 존재 여부
PPTX 슬라이드별 제목, 본문, 도형/표/이미지 요약
JPG/PNG 파일 정보, OCR 텍스트, 이미지 설명, 원본 경로
MP4/MOV 파일 정보, 자막 추출 상태, 프레임/오디오 처리 상태

6. Markdown 본문 템플릿 제안

  1. front matter
  2. 문서 개요
  3. 원본 파일 정보
  4. 자동 추출 본문
  5. 표/이미지/슬라이드 섹션
  6. 후처리 섹션
  7. OCR/LLM 보강 섹션

7. 내가 추천하는 운영 원칙

  • 원본은 절대 덮어쓰지 않는다.
  • Markdown은 재생성 가능해야 한다.
  • 사람이 수정한 영역과 자동 생성 영역을 구분하는 편이 좋다.
  • OCR/요약/태그 같은 후속 보강은 기존 MD에 누적 가능해야 한다.
  • 모든 MD는 원본 경로를 항상 포함해야 한다.

8. Markdown을 쓰지 말아야 하는 경우

  • 원본 레이아웃 자체가 법적 증거 수준으로 보존돼야 하는 경우
  • CAD, 3D, 바이너리 포맷처럼 텍스트 기반 중간표현이 거의 무의미한 경우
  • 극단적으로 짧고 메타만 의미 있는 파일

9. 이번 단계 추천

  • 먼저 모든 파일에 대해 최소 MD를 만든다.
  • 최소 MD에는 "이 파일이 무엇인지"와 "현재 어느 정도까지 해석됐는지"만 적어도 된다.
  • 이후 표 추출, OCR, 요약, 태그는 후속 배치로 누적하는 구조가 좋다.

9-1. 현재 구현 반영 (2026-03-22)

  • 최소 MD 생성 자체는 이미 48,906개 규모로 진행됐다.
  • 하지만 본문이 비어 있는 MD가 48,744건이라, 이 리서치의 핵심은 MD를 만들자보다 MD를 실제로 읽을 수 있게 채우자로 옮겨갔다.

Unresolved

  • 99.7% 본문 미추출 상태를 어떤 우선순위와 배치로 해소할지 아직 정해지지 않았다.
  • 원본 53,336건과 MD 48,906건의 차이를 설명하는 실패/스킵 기준이 문서화되지 않았다.

10. 관련 문서