DOCS/workflow/03_rag/markdown_intermediate_ssot.md

1.4 KiB

tags, type, last_updated
tags type last_updated
workflow
rag
markdown
ssot
intermediate-format
workflow 2026-03-22

Markdown 중간표현 SSOT 요약

정의

  • 로빙 RAG에서 Markdown은 원본을 대체하는 최종 저장본이 아니라, 다형식 원본을 읽기 좋게 정규화한 표준 중간표현입니다.
  • 기본 단위는 원본 1개 : Markdown 1개입니다.
  • 원본은 유지하고, Markdown은 재생성 가능한 파생본으로 다룹니다.

기준

  • 파일명은 원본 파일명을 유지하되 원본 확장자를 붙여 .md로 만듭니다.
  • 예: 사업계획서.pdf -> 사업계획서_pdf.md
  • 폴더 구조는 원본과 같은 상대 경로를 유지합니다.
  • 모든 Markdown에는 원본 경로와 처리 상태를 포함합니다.
  • 자동 생성 영역과 사람이 보강한 영역은 구분합니다.
  • 법적 원본 보존이 중요한 문서, CAD/3D 같은 비텍스트 중심 포맷은 Markdown을 원본 대체물로 쓰지 않습니다.

적용

  • 최소 Markdown에는 문서 개요, 원본 파일 정보, 자동 추출 본문, 처리 상태만 먼저 둡니다.
  • 이후 OCR, 표 추출, 이미지 설명, 요약, 태그를 같은 Markdown에 누적합니다.
  • 이 구조는 PDF, HWP/DOCX, XLSX, PPTX, 이미지, 영상까지 같은 RAG 파이프라인으로 연결하기 위한 SSOT입니다.

근거