1.4 KiB
1.4 KiB
tags, type, last_updated
| tags | type | last_updated | |||||
|---|---|---|---|---|---|---|---|
|
workflow | 2026-03-22 |
Markdown 중간표현 SSOT 요약
정의
- 로빙 RAG에서 Markdown은 원본을 대체하는 최종 저장본이 아니라, 다형식 원본을 읽기 좋게 정규화한 표준 중간표현입니다.
- 기본 단위는
원본 1개 : Markdown 1개입니다. - 원본은 유지하고, Markdown은 재생성 가능한 파생본으로 다룹니다.
기준
- 파일명은 원본 파일명을 유지하되 원본 확장자를 붙여
.md로 만듭니다. - 예:
사업계획서.pdf -> 사업계획서_pdf.md - 폴더 구조는 원본과 같은 상대 경로를 유지합니다.
- 모든 Markdown에는 원본 경로와 처리 상태를 포함합니다.
- 자동 생성 영역과 사람이 보강한 영역은 구분합니다.
- 법적 원본 보존이 중요한 문서, CAD/3D 같은 비텍스트 중심 포맷은 Markdown을 원본 대체물로 쓰지 않습니다.
적용
- 최소 Markdown에는 문서 개요, 원본 파일 정보, 자동 추출 본문, 처리 상태만 먼저 둡니다.
- 이후 OCR, 표 추출, 이미지 설명, 요약, 태그를 같은 Markdown에 누적합니다.
- 이 구조는 PDF, HWP/DOCX, XLSX, PPTX, 이미지, 영상까지 같은 RAG 파이프라인으로 연결하기 위한 SSOT입니다.