# OCR 핵심 논문 정리 (최근 동향 반영) - 작성일: 2025-09-09 - 범위: 문서 OCR, 장면 텍스트 인식(STR), 텍스트 스포팅, OCR-free 문서 이해 - 목적: 로빙(RO-BEING) 프로젝트의 파일 이해/문서 처리 스킬 고도화를 위한 레퍼런스 ## 핵심 목록 - [[li_et_al_2021_trocr_transformer_ocr|TrOCR: Transformer-based Optical Character Recognition]] - [[kim_et_al_2021_donut_ocr_free_transformer|Donut: OCR-Free Document Understanding Transformer]] - [[bautista_atienza_2022_parseq_scene_text_recognition|PARSeq: Scene Text Recognition with Permuted Autoregressive Sequence Models]] - [[fang_et_al_2021_abinet_iterative_correction|ABINet / ABINet++]] - [[du_et_al_2022_svtr_single_visual_model|SVTR: Scene Text Recognition with a Single Visual Model]] - [[lu_et_al_2019_master_multi_aspect_network|MASTER: Multi-Aspect Non-local Network for Scene Text Recognition]] - [[wang_et_al_2021_visionlan_visual_language_modeling|VisionLAN: From Two to One — Visual Language Modeling Network]] - [[zhao_et_al_2023_e2str_ego_evolving_recognizer|E2STR: Ego-Evolving Scene Text Recognizer with In-Context Learning]] - [[huang_et_al_2024_bridging_text_spotting|Bridging Text Spotting: Bridging the Gap Between End-to-End and Two-Step Text Spotting]] - **서베이 논문** - [[wang_et_al_2023_survey_text_detection_recognition|A Survey of Text Detection and Recognition Algorithms]] - [[naiemi_et_al_2022_survey_scene_text_detection_recognition|Scene Text Detection and Recognition: A Survey]] ## 동향 요약 - 트랜스포머 기반 STR 주류화: TrOCR·SVTR·PARSeq 등으로 정확도·속도 균형 최적화. - OCR-free 문서 이해 부상: Donut 계열로 문서 파이프라인 단순화(레이아웃/폼/IE 연계). - 실전형 이슈 전면화: 텍스트 스포팅 일체화, 도메인 적응(E2STR) 등 배포환경 초점 강화. - 생태계: ICDAR 등 벤치마크, MMOCR·오픈소스 툴킷을 통한 재현성/적용 속도 향상. ## 로빙 적용 가이드 (요약) - 문서 OCR(폼/영수증/표): Donut(빠른 프로토타입) → TrOCR(문장 품질) 조합 검토. - 장면 텍스트: SVTR/PARSeq 경량 라인과 ABINet 계열 정확도 라인 이원화. - 텍스트 스포팅: 기존 검출기 연동 또는 CVPR’24 기법 검토해 오류 전파 최소화. - 도메인 적응: 소량 표본·온디바이스 환경에 E2STR 컨셉트 적용 PoC. ## 참고 링크 (프레임워크/대회) - MMOCR 모델 개요: https://mmocr.readthedocs.io/en/stable/textrecog_models.html - ICDAR 대회 안내(참고): https://research.google/blog/announcing-the-icdar-2023-competition-on-hierarchical-text-detection-and-recognition/ --- 메모: 인용 수 등 수치는 시점·집계에 따라 변동 가능. 운영 반영 전 PoC로 정확도/지연/리소스 지표를 현행 데이터셋에 재검증할 것.