DOCS/research/ocr/250909_ocr_core_papers.md

5.1 KiB
Raw Blame History

OCR 핵심 논문 정리 (최근 동향 반영)

  • 작성일: 2025-09-09
  • 범위: 문서 OCR, 장면 텍스트 인식(STR), 텍스트 스포팅, OCR-free 문서 이해
  • 목적: 로빙(RO-BEING) 프로젝트의 파일 이해/문서 처리 스킬 고도화를 위한 레퍼런스

핵심 목록 (10편)

  1. TrOCR: Transformer-based Optical Character Recognition (AAAI 2023, 원 논문 2021 공개)
  1. Donut: OCR-Free Document Understanding Transformer (ECCV 2022)
  1. PARSeq: Scene Text Recognition with Permuted Autoregressive Sequence Models (ECCV 2022)
  1. ABINet / ABINet++ (CVPR 2021, TPAMI 2023)
  1. SVTR: Scene Text Recognition with a Single Visual Model (IJCAI 2022)
  1. MASTER: Multi-Aspect Non-local Network for Scene Text Recognition (Pattern Recognition 2021)
  1. VisionLAN: From Two to One — Visual Language Modeling Network (ICCV 2021)
  1. E2STR: Ego-Evolving Scene Text Recognizer with In-Context Learning (2023, 2024 업데이트)
  • 요지: 인-컨텍스트 학습 개념을 STR 도메인 적응에 적용. 실제 배포 환경의 도메인 편차를 빠르게 보정.
  • 참고: arXiv https://arxiv.org/abs/2311.13120
  1. Bridging Text Spotting: Bridging the Gap Between End-to-End and Two-Step Text Spotting (CVPR 2024)
  1. 서베이 2편 (개요 파악용)

동향 요약

  • 트랜스포머 기반 STR 주류화: TrOCR·SVTR·PARSeq 등으로 정확도·속도 균형 최적화.
  • OCR-free 문서 이해 부상: Donut 계열로 문서 파이프라인 단순화(레이아웃/폼/IE 연계).
  • 실전형 이슈 전면화: 텍스트 스포팅 일체화, 도메인 적응(E2STR) 등 배포환경 초점 강화.
  • 생태계: ICDAR 등 벤치마크, MMOCR·오픈소스 툴킷을 통한 재현성/적용 속도 향상.

로빙 적용 가이드 (요약)

  • 문서 OCR(폼/영수증/표): Donut(빠른 프로토타입) → TrOCR(문장 품질) 조합 검토.
  • 장면 텍스트: SVTR/PARSeq 경량 라인과 ABINet 계열 정확도 라인 이원화.
  • 텍스트 스포팅: 기존 검출기 연동 또는 CVPR24 기법 검토해 오류 전파 최소화.
  • 도메인 적응: 소량 표본·온디바이스 환경에 E2STR 컨셉트 적용 PoC.

참고 링크 (프레임워크/대회)


메모: 인용 수 등 수치는 시점·집계에 따라 변동 가능. 운영 반영 전 PoC로 정확도/지연/리소스 지표를 현행 데이터셋에 재검증할 것.