- Fix false EmailIntegration bug reports in multiple docs - Add new UUID principle violation documentation - Remove incorrect assumptions about gmail_tokens table - Update 250922 doc to reflect Gateway UUID conversion working - Clean up research papers organization into subdirectories
2.8 KiB
2.8 KiB
OCR 핵심 논문 정리 (최근 동향 반영)
- 작성일: 2025-09-09
- 범위: 문서 OCR, 장면 텍스트 인식(STR), 텍스트 스포팅, OCR-free 문서 이해
- 목적: 로빙(RO-BEING) 프로젝트의 파일 이해/문서 처리 스킬 고도화를 위한 레퍼런스
핵심 목록
- li_et_al_2021_trocr_transformer_ocr
- kim_et_al_2021_donut_ocr_free_transformer
- bautista_atienza_2022_parseq_scene_text_recognition
- fang_et_al_2021_abinet_iterative_correction
- du_et_al_2022_svtr_single_visual_model
- lu_et_al_2019_master_multi_aspect_network
- wang_et_al_2021_visionlan_visual_language_modeling
- zhao_et_al_2023_e2str_ego_evolving_recognizer
- huang_et_al_2024_bridging_text_spotting
- 서베이 논문
동향 요약
- 트랜스포머 기반 STR 주류화: TrOCR·SVTR·PARSeq 등으로 정확도·속도 균형 최적화.
- OCR-free 문서 이해 부상: Donut 계열로 문서 파이프라인 단순화(레이아웃/폼/IE 연계).
- 실전형 이슈 전면화: 텍스트 스포팅 일체화, 도메인 적응(E2STR) 등 배포환경 초점 강화.
- 생태계: ICDAR 등 벤치마크, MMOCR·오픈소스 툴킷을 통한 재현성/적용 속도 향상.
로빙 적용 가이드 (요약)
- 문서 OCR(폼/영수증/표): Donut(빠른 프로토타입) → TrOCR(문장 품질) 조합 검토.
- 장면 텍스트: SVTR/PARSeq 경량 라인과 ABINet 계열 정확도 라인 이원화.
- 텍스트 스포팅: 기존 검출기 연동 또는 CVPR’24 기법 검토해 오류 전파 최소화.
- 도메인 적응: 소량 표본·온디바이스 환경에 E2STR 컨셉트 적용 PoC.
참고 링크 (프레임워크/대회)
- MMOCR 모델 개요: https://mmocr.readthedocs.io/en/stable/textrecog_models.html
- ICDAR 대회 안내(참고): https://research.google/blog/announcing-the-icdar-2023-competition-on-hierarchical-text-detection-and-recognition/
메모: 인용 수 등 수치는 시점·집계에 따라 변동 가능. 운영 반영 전 PoC로 정확도/지연/리소스 지표를 현행 데이터셋에 재검증할 것.