From 668f793c8cab5cca319a92295c0a58c9c7f69d51 Mon Sep 17 00:00:00 2001 From: Claude-51124 Date: Wed, 22 Oct 2025 23:54:44 +0900 Subject: [PATCH] =?UTF-8?q?docs(troubleshooting):=20PaddleOCR/CLOVA=20?= =?UTF-8?q?=EC=82=AC=EC=9D=B4=EB=93=9C=EC=B9=B4=20=ED=85=8C=EC=8A=A4?= =?UTF-8?q?=ED=8A=B8=20=EA=B2=B0=EA=B3=BC=20=EB=B0=8F=20=EC=8B=A4=ED=96=89?= =?UTF-8?q?=20=EA=B0=80=EC=9D=B4=EB=93=9C=20=EC=B6=94=EA=B0=80?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- ...ude_OCR_파이프라인_개선_테스트.md | 18 ++++++++++++++++++ 1 file changed, 18 insertions(+) diff --git a/troubleshooting/251022_claude_OCR_파이프라인_개선_테스트.md b/troubleshooting/251022_claude_OCR_파이프라인_개선_테스트.md index 6021877..68e1662 100644 --- a/troubleshooting/251022_claude_OCR_파이프라인_개선_테스트.md +++ b/troubleshooting/251022_claude_OCR_파이프라인_개선_테스트.md @@ -43,6 +43,24 @@ - IR 지표 질의(사업 분야/성장률/팀 구성 등): 대부분 0건(문장 구조/키워드 부재) - 식별 키워드 질의(예: "workvisa", "Team Building"): 해당 문서 포함해 검색됨(단, 의미 문장 근거는 빈약) +## 추가 테스트: PaddleOCR 사이드카(일회성) +- 스크립트: `rb8001/tests/test_paddleocr_sidecar.py` +- 방법: python:3.11-slim 컨테이너 내에 poppler + `pip install paddlepaddle paddleocr` 설치 → 첫 실행 시 모델 다운로드 후 `/tmp` 이미지 디렉터리 대상으로 CLI 실행 +- 결과: 의존성(libGL, glib, gomp) 보완 및 CLI 플래그 정정 후에도 최신 PaddleOCR CLI/모델과 런타임 메모리 제약으로 실패(Exit 137, 타입 에러). 고정 버전 조합이 필요. +- 권장 재시도 환경(고정): + - 패키지: `paddleocr==2.7.*`, `paddlepaddle==2.5.*` + - 시스템: `libgl1`, `libglib2.0-0`, `libgomp1`, `poppler-utils` + - 실행: `paddleocr ocr -i /tmp --lang korean --ocr_version PP-OCRv3 --text_det_limit_side_len 960 --rec_batch_num 1` + +## 추가 테스트: CLOVA OCR 사이드카(일회성) +- 스크립트: `rb8001/tests/test_clova_ocr_sidecar.py` +- 방법: 첫 페이지를 300DPI PNG로 변환(poppler) → `CLOVA_OCR_SECRET`(평문/BASE64) + `CLOVA_OCR_URL` 환경변수로 호출 → 라인 텍스트를 `rb8001/state/ocr_tests/.clova.txt` 저장 +- 실행 변수 예시(사용자 제공 기준): + - `export CLOVA_OCR_SECRET='glQlTOgJtgPQiekrHMXatLpfjVsYDCjv'` + - `export CLOVA_OCR_URL='http://clovaocr-api-kr.ncloud.com/external/v1/47060/bb80a363f469cf0ac9d46ebbb1b43605105f1348377483de31dbfb3b10ca9b2a'` + - `python3 rb8001/tests/test_clova_ocr_sidecar.py --team 79441171-3951-4870-beb8-916d07fe8be5 --month 2025-10 --doc 611938b0-0cbf-4f32-8765-ffabb90a85b0` +- 비고: 네트워크/엔드포인트 정책에 따라 응답이 제한될 수 있음. 정상 시 `status: 200`과 라인 수가 출력됨. + ## 분석 - 파일은 PDF 내부에 텍스트 레이어가 거의 없고 이미지(XObject) 위주. - 현재 강제 OCR(추출 품질 휴리스틱 기반) 수행해도 의미 문장 수준으로 복원되지 않아 IR 질의가 실패.