docs(workflow/rag): Markdown 중간표현 SSOT 요약 및 RAG 인덱스 연결
Made-with: Cursor
This commit is contained in:
parent
99d2f314fb
commit
0e6e8d71c2
@ -22,6 +22,7 @@ tags: [workflow, rag, companyx, grounding, ssot]
|
||||
2. [임베딩 브리지](./skill_embedding_bridge.md)
|
||||
3. [RAG 검색·Grounding 요청](./rag_search_grounding_request.md)
|
||||
4. [Company X Grounding 파이프라인](./companyx_grounding_pipeline.md)
|
||||
5. [Markdown 중간표현 SSOT 요약](./markdown_intermediate_ssot.md)
|
||||
|
||||
## 공통 운영 원칙
|
||||
- 문서는 JSON보다 먼저 읽는 실행 기준이다.
|
||||
|
||||
24
workflow/03_rag/markdown_intermediate_ssot.md
Normal file
24
workflow/03_rag/markdown_intermediate_ssot.md
Normal file
@ -0,0 +1,24 @@
|
||||
tags: [workflow, rag, markdown, ssot, intermediate-format]
|
||||
|
||||
# Markdown 중간표현 SSOT 요약
|
||||
|
||||
## 정의
|
||||
- 로빙 RAG에서 Markdown은 원본을 대체하는 최종 저장본이 아니라, 다형식 원본을 읽기 좋게 정규화한 표준 중간표현입니다.
|
||||
- 기본 단위는 `원본 1개 : Markdown 1개`입니다.
|
||||
- 원본은 유지하고, Markdown은 재생성 가능한 파생본으로 다룹니다.
|
||||
|
||||
## 기준
|
||||
- 파일명은 원본 파일명을 유지하되 원본 확장자를 붙여 `.md`로 만듭니다.
|
||||
- 예: `사업계획서.pdf -> 사업계획서_pdf.md`
|
||||
- 폴더 구조는 원본과 같은 상대 경로를 유지합니다.
|
||||
- 모든 Markdown에는 원본 경로와 처리 상태를 포함합니다.
|
||||
- 자동 생성 영역과 사람이 보강한 영역은 구분합니다.
|
||||
- 법적 원본 보존이 중요한 문서, CAD/3D 같은 비텍스트 중심 포맷은 Markdown을 원본 대체물로 쓰지 않습니다.
|
||||
|
||||
## 적용
|
||||
- 최소 Markdown에는 문서 개요, 원본 파일 정보, 자동 추출 본문, 처리 상태만 먼저 둡니다.
|
||||
- 이후 OCR, 표 추출, 이미지 설명, 요약, 태그를 같은 Markdown에 누적합니다.
|
||||
- 이 구조는 PDF, HWP/DOCX, XLSX, PPTX, 이미지, 영상까지 같은 RAG 파이프라인으로 연결하기 위한 SSOT입니다.
|
||||
|
||||
## 근거
|
||||
- [Markdown 중간표현 SSOT 설계 리서치](../../journey/research/rag/260320_MD_중간표현_SSOT_설계_리서치.md)
|
||||
Loading…
x
Reference in New Issue
Block a user