DOCS/research/ocr/250909_ocr_core_papers.md
happybell80 58153a49a0 Fix documentation errors and add UUID principle violation docs
- Fix false EmailIntegration bug reports in multiple docs
- Add new UUID principle violation documentation
- Remove incorrect assumptions about gmail_tokens table
- Update 250922 doc to reflect Gateway UUID conversion working
- Clean up research papers organization into subdirectories
2025-09-26 00:38:52 +09:00

2.8 KiB
Raw Blame History

OCR 핵심 논문 정리 (최근 동향 반영)

  • 작성일: 2025-09-09
  • 범위: 문서 OCR, 장면 텍스트 인식(STR), 텍스트 스포팅, OCR-free 문서 이해
  • 목적: 로빙(RO-BEING) 프로젝트의 파일 이해/문서 처리 스킬 고도화를 위한 레퍼런스

핵심 목록

동향 요약

  • 트랜스포머 기반 STR 주류화: TrOCR·SVTR·PARSeq 등으로 정확도·속도 균형 최적화.
  • OCR-free 문서 이해 부상: Donut 계열로 문서 파이프라인 단순화(레이아웃/폼/IE 연계).
  • 실전형 이슈 전면화: 텍스트 스포팅 일체화, 도메인 적응(E2STR) 등 배포환경 초점 강화.
  • 생태계: ICDAR 등 벤치마크, MMOCR·오픈소스 툴킷을 통한 재현성/적용 속도 향상.

로빙 적용 가이드 (요약)

  • 문서 OCR(폼/영수증/표): Donut(빠른 프로토타입) → TrOCR(문장 품질) 조합 검토.
  • 장면 텍스트: SVTR/PARSeq 경량 라인과 ABINet 계열 정확도 라인 이원화.
  • 텍스트 스포팅: 기존 검출기 연동 또는 CVPR24 기법 검토해 오류 전파 최소화.
  • 도메인 적응: 소량 표본·온디바이스 환경에 E2STR 컨셉트 적용 PoC.

참고 링크 (프레임워크/대회)


메모: 인용 수 등 수치는 시점·집계에 따라 변동 가능. 운영 반영 전 PoC로 정확도/지연/리소스 지표를 현행 데이터셋에 재검증할 것.