docs(workflow/rag): Markdown 중간표현 SSOT 요약 및 RAG 인덱스 연결

Made-with: Cursor
This commit is contained in:
happybell80 2026-03-20 17:51:24 +09:00
parent 99d2f314fb
commit 0e6e8d71c2
2 changed files with 25 additions and 0 deletions

View File

@ -22,6 +22,7 @@ tags: [workflow, rag, companyx, grounding, ssot]
2. [임베딩 브리지](./skill_embedding_bridge.md)
3. [RAG 검색·Grounding 요청](./rag_search_grounding_request.md)
4. [Company X Grounding 파이프라인](./companyx_grounding_pipeline.md)
5. [Markdown 중간표현 SSOT 요약](./markdown_intermediate_ssot.md)
## 공통 운영 원칙
- 문서는 JSON보다 먼저 읽는 실행 기준이다.

View File

@ -0,0 +1,24 @@
tags: [workflow, rag, markdown, ssot, intermediate-format]
# Markdown 중간표현 SSOT 요약
## 정의
- 로빙 RAG에서 Markdown은 원본을 대체하는 최종 저장본이 아니라, 다형식 원본을 읽기 좋게 정규화한 표준 중간표현입니다.
- 기본 단위는 `원본 1개 : Markdown 1개`입니다.
- 원본은 유지하고, Markdown은 재생성 가능한 파생본으로 다룹니다.
## 기준
- 파일명은 원본 파일명을 유지하되 원본 확장자를 붙여 `.md`로 만듭니다.
- 예: `사업계획서.pdf -> 사업계획서_pdf.md`
- 폴더 구조는 원본과 같은 상대 경로를 유지합니다.
- 모든 Markdown에는 원본 경로와 처리 상태를 포함합니다.
- 자동 생성 영역과 사람이 보강한 영역은 구분합니다.
- 법적 원본 보존이 중요한 문서, CAD/3D 같은 비텍스트 중심 포맷은 Markdown을 원본 대체물로 쓰지 않습니다.
## 적용
- 최소 Markdown에는 문서 개요, 원본 파일 정보, 자동 추출 본문, 처리 상태만 먼저 둡니다.
- 이후 OCR, 표 추출, 이미지 설명, 요약, 태그를 같은 Markdown에 누적합니다.
- 이 구조는 PDF, HWP/DOCX, XLSX, PPTX, 이미지, 영상까지 같은 RAG 파이프라인으로 연결하기 위한 SSOT입니다.
## 근거
- [Markdown 중간표현 SSOT 설계 리서치](../../journey/research/rag/260320_MD_중간표현_SSOT_설계_리서치.md)