OCR 벤치마크는 단일 accuracy 점수가 아니라 task별 평가 목적과 metric(평가 지표) 기준으로 선택해야 합니다. 실무에서는 텍스트 인식뿐 아니라 문서 구조, 표, 수식, 질의응답까지 포함된 평가 범위와 재현 가능한 평가 방식이 핵심 기준이 됩니다.
OCR 평가는 accuracy 하나가 아니라 task별 metric 이해에서 시작됩니다.
benchmark는 General / Layout / VQA / Table / Equation으로 나누면 비교가 쉬워집니다.
실무 기준 주요 후보: CC-OCR, OmniDocBench, OCRBench v2, DocVQA, UniMER
주요 한계: 한국어 커버리지 부족, 재현성 문제, 전처리 비용
장기적으로는 한국어 + 범용 task 통합 benchmark 설계가 필요합니다.
1. 배경: 왜 OCR 벤치마크 선택이 어려운가
OCR은 더 이상 “글자를 얼마나 정확히 읽는가”만으로 설명되지 않습니다.
실제 Document AI(문서 이해 기반 AI) 환경에서는 다음과 같은 능력이 함께 요구됩니다.
문서 구조 이해(제목, 본문, 표, 각주 구분)
읽기 순서(reading order) 복원
표 구조화(HTML, JSON 등) 및 복원
수식 → LaTeX 변환
문서 기반 질의응답(VQA, Visual Question Answering)
문제는 benchmark마다 평가 범위가 다르다는 점입니다. 같은 모델이라도,
어떤 benchmark에서는 성능이 좋아 보이고
다른 benchmark에서는 성능이 부족해 보일 수 있습니다.
즉, benchmark 선택 = 평가 기준을 정의하는 일입니다.
2. 요구사항: 좋은 OCR 벤치마크의 조건
실무에서 benchmark를 고를 때 중요한 기준은 다음 5가지입니다.
2.1 서비스와의 적합성
단순 OCR(Reader) vs 문서 파싱 vs 이해(VQA)
실제 제품 기능과 얼마나 연결되는가
2.2 반복 실험 가능성
데이터가 너무 작으면 결과가 불안정
너무 크면 비용 과다
→ 지속적으로 반복 평가 가능한 규모가 중요
2.3 언어 커버리지
대부분 영어/중국어 중심
→ 한국어 포함 여부 또는 다국어 확장 가능성 중요
2.4 평가 형식 일관성
QA / JSON / HTML / LaTeX 등 다양한 형식의 존재
→ 평가 파이프라인을 일관되게 운영할 수 있는가가 중요
2.5 재현성(Reproducibility)
metric 정의가 명확한가
전처리/후처리 과정이 공개되어 있는가
3. 핵심: 먼저 metric부터 이해해야 한다
benchmark 비교의 핵심은 모델이 아니라 metric(평가 지표)입니다.
주요 metric 4가지
1) Levenshtein Distance / NID(Normalized Edit Distance)
문자열 간 차이를 측정하는 방식
OCR 결과 비교에서 가장 기본적인 지표
→ “한 글자씩 얼마나 다른가”를 측정
2) TEDS(Tree Edit Distance-based Similarity)
표 구조 + 내용을 함께 평가
TEDS-S: 구조만 평가
3) ANLS(Average Normalized Levenshtein Similarity)
정답과 완전히 동일하지 않아도 의미적으로 유사하면 인정
VQA(Visual Question Answering)에서 활용
4) Exact Match
완전 일치 여부 평가
특히 수식(LaTeX)에서는 매우 중요
결국 benchmark 선택은 데이터셋을 고르는 일이자, 우리 팀이 어떤 오류를 중요하게 볼 것인지 정의하는 일입니다.
4. 구조 이해: OCR benchmark를 나누는 5가지 축
OCR benchmark는 아래 5개 축으로 나누어 보면 이해하기 쉽습니다.
→ 실무에서는 보통 General + 특정 task 조합으로 사용합니다.
구분 | 설명 | 대표 benchmark |
|---|---|---|
General | 범용 OCR 및 문서 전반 성능 평가 | CC-OCR, OmniDocBench, OCRBench v2 |
Layout | 문서 구조 인식 및 분류 평가 | DocLayNet, D4LA |
VQA | 문서 기반 질의응답 능력 평가 | DocVQA |
Table | 표 구조 복원 능력 평가 | PubTabNet, FinTabNet |
Equation | 수식 이미지 → LaTeX 변환 능력 평가 | UniMER, LaTeX-80M |
5. 주요 benchmark 비교
Benchmark | 평가 영역 | 장점 | 한계 | 적합한 상황 |
|---|---|---|---|---|
CC-OCR | 문서 파싱, KIE, 다국어 | 한국어 포함, task 다양 | answer 포맷 불일치 | baseline 구축 |
OmniDocBench | layout + OCR + table + equation | end-to-end 평가 가능 | 언어 다양성 제한 | 전체 파이프라인 평가 |
OCRBench v2 | OCR + VQA + relation | VLM 친화적 | 영어/중국어 중심 | 모델 비교 |
DocVQA | 문서 질의응답 | 명확한 QA 구조 | OCR 자체 평가는 제한 | 이해 능력 평가 |
UniMER | 수식 인식 | metric 명확 | 범용성 낮음 | 수식 특화 |
6. 운영 포인트
6.1 benchmark는 바로 사용할 수 있는 형태가 아니다
전처리 / 후처리 필요
label format 변환 필요
6.2 metric 계산 방식 확인 필수
동일한 metric이라도 구현 방식에 따라 결과가 달라질 수 있음
6.3 leaderboard는 참고용
실제 서비스에서의 실패 패턴은 별도로 분석 필요
6.4 평가 자동화가 핵심
수작업 평가 → 운영 불가능
→ 자동 평가 파이프라인 구축이 필수
7. 한계 및 트레이드오프
주요 한계
한국어 중심 benchmark 부족
metric 계산 방식 및 추론 pipeline이 불투명한 경우 존재
추가 전처리 비용 발생
종합 점수만으로는 실제 성능 판단이 어려움
트레이드오프
선택 | 장점 | 단점 |
|---|---|---|
큰 benchmark | 신뢰도 높음 | 비용 증가 |
다양한 task | 현실 반영 | 복잡도 증가 |
strict metric | 정확도 높음 | 유연성 낮음 |
loose metric | 현실 반영 | 평가 불안정 |
트레이드오프: 하나를 얻으면 다른 하나를 포기해야 하는 관계
8. 앞으로의 방향
향후 benchmark 설계 시 중요한 원칙은 다음과 같습니다.
한국어 중심 + 다국어 확장
OCR + Parsing + VQA 통합
VLM(Vision-Language Model) 친화적 구조
자동 평가 가능한 포맷
OCR benchmark 선택은 모델 평가를 위한 단순한 도구 선택이 아니라, 우리 팀이 어떤 문제를 중요하게 보는지를 정의하는 과정입니다.
Lomin은 실제 업무 문서 환경에 맞는 OCR 평가 체계를 바탕으로 Document AI 성능을 지속적으로 검증하고 개선해 나가고 있습니다.