5.1 KiB
5.1 KiB
OCR 핵심 논문 정리 (최근 동향 반영)
- 작성일: 2025-09-09
- 범위: 문서 OCR, 장면 텍스트 인식(STR), 텍스트 스포팅, OCR-free 문서 이해
- 목적: 로빙(RO-BEING) 프로젝트의 파일 이해/문서 처리 스킬 고도화를 위한 레퍼런스
핵심 목록 (10편)
- TrOCR: Transformer-based Optical Character Recognition (AAAI 2023, 원 논문 2021 공개)
- 요지: Transformer 인코더-디코더와 대규모 사전학습을 결합한 범용 OCR/STR 베이스라인. 문서·장면 모두에서 강력한 성능과 전이성 제공.
- 참고: arXiv https://arxiv.org/abs/2109.10282, AAAI https://ojs.aaai.org/index.php/AAAI/article/view/26538/26310
- Donut: OCR-Free Document Understanding Transformer (ECCV 2022)
- 요지: 별도 OCR 엔진 없이 이미지에서 바로 구조화 시퀀스를 생성하는 “OCR-free” 접근. 문서 분류/파싱/IE 파이프라인 단순화에 기여.
- 참고: arXiv https://arxiv.org/abs/2111.15664, ECCV PDF https://www.ecva.net/papers/eccv_2022/papers_ECCV/papers/136880493.pdf, GitHub https://github.com/clovaai/donut
- PARSeq: Scene Text Recognition with Permuted Autoregressive Sequence Models (ECCV 2022)
- 요지: 순열 기반 자회귀 학습으로 강인성과 효율을 동시에 개선한 STR. 다양한 구현과 벤치마크에서 실용적 선택지로 확산.
- 참고: arXiv https://arxiv.org/abs/2207.06966, ECCV PDF https://www.ecva.net/papers/eccv_2022/papers_ECCV/papers/136880177.pdf
- ABINet / ABINet++ (CVPR 2021, TPAMI 2023)
- 요지: 시각 모듈과 언어 모듈을 분리·결합해 반복적 정정을 수행. 복잡한 장면 텍스트에서 높은 정확도. TPAMI 확장판(ABINet++).
- 참고: arXiv https://arxiv.org/abs/2103.06495, TPAMI https://doi.org/10.1109/TPAMI.2022.3223908
- SVTR: Scene Text Recognition with a Single Visual Model (IJCAI 2022)
- 요지: 순차 디코더 없이 비전 트랜스포머만으로 STR을 수행하는 경량·고속 구조. 산업 배포 친화적.
- 참고: arXiv https://arxiv.org/abs/2205.00159, IJCAI PDF https://www.ijcai.org/proceedings/2022/0124.pdf
- MASTER: Multi-Aspect Non-local Network for Scene Text Recognition (Pattern Recognition 2021)
- 요지: 글로벌 컨텍스트 통합을 강화한 셀프-어텐션 기반 구조. 불규칙 텍스트에서 견고한 성능으로 여전히 널리 인용.
- 참고: arXiv https://arxiv.org/abs/1910.02562, Journal https://www.sciencedirect.com/science/article/pii/S0031320321001679
- VisionLAN: From Two to One — Visual Language Modeling Network (ICCV 2021)
- 요지: 시각·언어 정보를 단일 구조로 통합해 외부 LM 의존도를 낮추면서 정확도 유지/개선.
- 참고: CVF https://openaccess.thecvf.com/content/ICCV2021/papers/Wang_From_Two_to_One_A_New_Scene_Text_Recognizer_With_ICCV_2021_paper.pdf, arXiv https://arxiv.org/abs/2108.09661
- E2STR: Ego-Evolving Scene Text Recognizer with In-Context Learning (2023, 2024 업데이트)
- 요지: 인-컨텍스트 학습 개념을 STR 도메인 적응에 적용. 실제 배포 환경의 도메인 편차를 빠르게 보정.
- 참고: arXiv https://arxiv.org/abs/2311.13120
- Bridging Text Spotting: Bridging the Gap Between End-to-End and Two-Step Text Spotting (CVPR 2024)
- 요지: 검출-인식 결합(텍스트 스포팅)에서 모듈성 유지와 오류 전파 억제를 함께 달성하려는 최신 접근.
- 참고: CVF https://openaccess.thecvf.com/content/CVPR2024/papers/Huang_Bridging_the_Gap_Between_End-to-End_and_Two-Step_Text_Spotting_CVPR_2024_paper.pdf
- 서베이 2편 (개요 파악용)
- a) A Survey of Text Detection and Recognition Algorithms (Neurocomputing 2023)
- b) Scene Text Detection and Recognition: A Survey (Multimedia Tools and Applications 2022)
동향 요약
- 트랜스포머 기반 STR 주류화: TrOCR·SVTR·PARSeq 등으로 정확도·속도 균형 최적화.
- OCR-free 문서 이해 부상: Donut 계열로 문서 파이프라인 단순화(레이아웃/폼/IE 연계).
- 실전형 이슈 전면화: 텍스트 스포팅 일체화, 도메인 적응(E2STR) 등 배포환경 초점 강화.
- 생태계: ICDAR 등 벤치마크, MMOCR·오픈소스 툴킷을 통한 재현성/적용 속도 향상.
로빙 적용 가이드 (요약)
- 문서 OCR(폼/영수증/표): Donut(빠른 프로토타입) → TrOCR(문장 품질) 조합 검토.
- 장면 텍스트: SVTR/PARSeq 경량 라인과 ABINet 계열 정확도 라인 이원화.
- 텍스트 스포팅: 기존 검출기 연동 또는 CVPR’24 기법 검토해 오류 전파 최소화.
- 도메인 적응: 소량 표본·온디바이스 환경에 E2STR 컨셉트 적용 PoC.
참고 링크 (프레임워크/대회)
- MMOCR 모델 개요: https://mmocr.readthedocs.io/en/stable/textrecog_models.html
- ICDAR 대회 안내(참고): https://research.google/blog/announcing-the-icdar-2023-competition-on-hierarchical-text-detection-and-recognition/
메모: 인용 수 등 수치는 시점·집계에 따라 변동 가능. 운영 반영 전 PoC로 정확도/지연/리소스 지표를 현행 데이터셋에 재검증할 것.