From 0e6e8d71c2f725bcdd09b571420781b6020233de Mon Sep 17 00:00:00 2001 From: happybell80 Date: Fri, 20 Mar 2026 17:51:24 +0900 Subject: [PATCH] =?UTF-8?q?docs(workflow/rag):=20Markdown=20=EC=A4=91?= =?UTF-8?q?=EA=B0=84=ED=91=9C=ED=98=84=20SSOT=20=EC=9A=94=EC=95=BD=20?= =?UTF-8?q?=EB=B0=8F=20RAG=20=EC=9D=B8=EB=8D=B1=EC=8A=A4=20=EC=97=B0?= =?UTF-8?q?=EA=B2=B0?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit Made-with: Cursor --- workflow/03_rag/README.md | 1 + workflow/03_rag/markdown_intermediate_ssot.md | 24 +++++++++++++++++++ 2 files changed, 25 insertions(+) create mode 100644 workflow/03_rag/markdown_intermediate_ssot.md diff --git a/workflow/03_rag/README.md b/workflow/03_rag/README.md index de38b86..216ab05 100644 --- a/workflow/03_rag/README.md +++ b/workflow/03_rag/README.md @@ -22,6 +22,7 @@ tags: [workflow, rag, companyx, grounding, ssot] 2. [임베딩 브리지](./skill_embedding_bridge.md) 3. [RAG 검색·Grounding 요청](./rag_search_grounding_request.md) 4. [Company X Grounding 파이프라인](./companyx_grounding_pipeline.md) +5. [Markdown 중간표현 SSOT 요약](./markdown_intermediate_ssot.md) ## 공통 운영 원칙 - 문서는 JSON보다 먼저 읽는 실행 기준이다. diff --git a/workflow/03_rag/markdown_intermediate_ssot.md b/workflow/03_rag/markdown_intermediate_ssot.md new file mode 100644 index 0000000..6154fd2 --- /dev/null +++ b/workflow/03_rag/markdown_intermediate_ssot.md @@ -0,0 +1,24 @@ +tags: [workflow, rag, markdown, ssot, intermediate-format] + +# Markdown 중간표현 SSOT 요약 + +## 정의 +- 로빙 RAG에서 Markdown은 원본을 대체하는 최종 저장본이 아니라, 다형식 원본을 읽기 좋게 정규화한 표준 중간표현입니다. +- 기본 단위는 `원본 1개 : Markdown 1개`입니다. +- 원본은 유지하고, Markdown은 재생성 가능한 파생본으로 다룹니다. + +## 기준 +- 파일명은 원본 파일명을 유지하되 원본 확장자를 붙여 `.md`로 만듭니다. +- 예: `사업계획서.pdf -> 사업계획서_pdf.md` +- 폴더 구조는 원본과 같은 상대 경로를 유지합니다. +- 모든 Markdown에는 원본 경로와 처리 상태를 포함합니다. +- 자동 생성 영역과 사람이 보강한 영역은 구분합니다. +- 법적 원본 보존이 중요한 문서, CAD/3D 같은 비텍스트 중심 포맷은 Markdown을 원본 대체물로 쓰지 않습니다. + +## 적용 +- 최소 Markdown에는 문서 개요, 원본 파일 정보, 자동 추출 본문, 처리 상태만 먼저 둡니다. +- 이후 OCR, 표 추출, 이미지 설명, 요약, 태그를 같은 Markdown에 누적합니다. +- 이 구조는 PDF, HWP/DOCX, XLSX, PPTX, 이미지, 영상까지 같은 RAG 파이프라인으로 연결하기 위한 SSOT입니다. + +## 근거 +- [Markdown 중간표현 SSOT 설계 리서치](../../journey/research/rag/260320_MD_중간표현_SSOT_설계_리서치.md)