OCR 벤치마크는 어떻게 골라야 할까?

OCR 벤치마크를 선택할 때 accuracy만 보면 안 되는 이유와 General, Layout, VQA, Table, Equation 기준의 평가 방식, 주요 metric, 실무 운영 포인트를 정리합니다.

May 11, 2026

OCR 벤치마크는 단일 accuracy 점수가 아니라 task별 평가 목적과 metric(평가 지표) 기준으로 선택해야 합니다. 실무에서는 텍스트 인식뿐 아니라 문서 구조, 표, 수식, 질의응답까지 포함된 평가 범위와 재현 가능한 평가 방식이 핵심 기준이 됩니다.

OCR 평가는 accuracy 하나가 아니라 task별 metric 이해에서 시작됩니다.
benchmark는 General / Layout / VQA / Table / Equation으로 나누면 비교가 쉬워집니다.
실무 기준 주요 후보: CC-OCR, OmniDocBench, OCRBench v2, DocVQA, UniMER
주요 한계: 한국어 커버리지 부족, 재현성 문제, 전처리 비용
장기적으로는 한국어 + 범용 task 통합 benchmark 설계가 필요합니다.

1. 배경: 왜 OCR 벤치마크 선택이 어려운가

OCR은 더 이상 “글자를 얼마나 정확히 읽는가”만으로 설명되지 않습니다.

실제 Document AI(문서 이해 기반 AI) 환경에서는 다음과 같은 능력이 함께 요구됩니다.

문서 구조 이해(제목, 본문, 표, 각주 구분)
읽기 순서(reading order) 복원
표 구조화(HTML, JSON 등) 및 복원
수식 → LaTeX 변환
문서 기반 질의응답(VQA, Visual Question Answering)

문제는 benchmark마다 평가 범위가 다르다는 점입니다. 같은 모델이라도,

어떤 benchmark에서는 성능이 좋아 보이고
다른 benchmark에서는 성능이 부족해 보일 수 있습니다.

즉, benchmark 선택 = 평가 기준을 정의하는 일입니다.

2. 요구사항: 좋은 OCR 벤치마크의 조건

실무에서 benchmark를 고를 때 중요한 기준은 다음 5가지입니다.

2.1 서비스와의 적합성

단순 OCR(Reader) vs 문서 파싱 vs 이해(VQA)
실제 제품 기능과 얼마나 연결되는가

2.2 반복 실험 가능성

데이터가 너무 작으면 결과가 불안정
너무 크면 비용 과다

→ 지속적으로 반복 평가 가능한 규모가 중요

2.3 언어 커버리지

대부분 영어/중국어 중심

→ 한국어 포함 여부 또는 다국어 확장 가능성 중요

2.4 평가 형식 일관성

QA / JSON / HTML / LaTeX 등 다양한 형식의 존재

→ 평가 파이프라인을 일관되게 운영할 수 있는가가 중요

2.5 재현성(Reproducibility)

metric 정의가 명확한가
전처리/후처리 과정이 공개되어 있는가

3. 핵심: 먼저 metric부터 이해해야 한다

benchmark 비교의 핵심은 모델이 아니라 metric(평가 지표)입니다.

주요 metric 4가지

1) Levenshtein Distance / NID(Normalized Edit Distance)

문자열 간 차이를 측정하는 방식
OCR 결과 비교에서 가장 기본적인 지표

→ “한 글자씩 얼마나 다른가”를 측정

2) TEDS(Tree Edit Distance-based Similarity)

표 구조 + 내용을 함께 평가
TEDS-S: 구조만 평가

3) ANLS(Average Normalized Levenshtein Similarity)

정답과 완전히 동일하지 않아도 의미적으로 유사하면 인정
VQA(Visual Question Answering)에서 활용

4) Exact Match

완전 일치 여부 평가
특히 수식(LaTeX)에서는 매우 중요

결국 benchmark 선택은 데이터셋을 고르는 일이자, 우리 팀이 어떤 오류를 중요하게 볼 것인지 정의하는 일입니다.

4. 구조 이해: OCR benchmark를 나누는 5가지 축

OCR benchmark는 아래 5개 축으로 나누어 보면 이해하기 쉽습니다.

→ 실무에서는 보통 General + 특정 task 조합으로 사용합니다.

구분	설명	대표 benchmark
General	범용 OCR 및 문서 전반 성능 평가	CC-OCR, OmniDocBench, OCRBench v2
Layout	문서 구조 인식 및 분류 평가	DocLayNet, D4LA
VQA	문서 기반 질의응답 능력 평가	DocVQA
Table	표 구조 복원 능력 평가	PubTabNet, FinTabNet
Equation	수식 이미지 → LaTeX 변환 능력 평가	UniMER, LaTeX-80M

5. 주요 benchmark 비교

Benchmark	평가 영역	장점	한계	적합한 상황
CC-OCR	문서 파싱, KIE, 다국어	한국어 포함, task 다양	answer 포맷 불일치	baseline 구축
OmniDocBench	layout + OCR + table + equation	end-to-end 평가 가능	언어 다양성 제한	전체 파이프라인 평가
OCRBench v2	OCR + VQA + relation	VLM 친화적	영어/중국어 중심	모델 비교
DocVQA	문서 질의응답	명확한 QA 구조	OCR 자체 평가는 제한	이해 능력 평가
UniMER	수식 인식	metric 명확	범용성 낮음	수식 특화

6. 운영 포인트

6.1 benchmark는 바로 사용할 수 있는 형태가 아니다

전처리 / 후처리 필요
label format 변환 필요

6.2 metric 계산 방식 확인 필수

동일한 metric이라도 구현 방식에 따라 결과가 달라질 수 있음

6.3 leaderboard는 참고용

실제 서비스에서의 실패 패턴은 별도로 분석 필요

6.4 평가 자동화가 핵심

수작업 평가 → 운영 불가능

→ 자동 평가 파이프라인 구축이 필수

7. 한계 및 트레이드오프

주요 한계

한국어 중심 benchmark 부족
metric 계산 방식 및 추론 pipeline이 불투명한 경우 존재
추가 전처리 비용 발생
종합 점수만으로는 실제 성능 판단이 어려움

트레이드오프

선택	장점	단점
큰 benchmark	신뢰도 높음	비용 증가
다양한 task	현실 반영	복잡도 증가
strict metric	정확도 높음	유연성 낮음
loose metric	현실 반영	평가 불안정

트레이드오프: 하나를 얻으면 다른 하나를 포기해야 하는 관계

8. 앞으로의 방향

향후 benchmark 설계 시 중요한 원칙은 다음과 같습니다.

한국어 중심 + 다국어 확장
OCR + Parsing + VQA 통합
VLM(Vision-Language Model) 친화적 구조
자동 평가 가능한 포맷

OCR benchmark 선택은 모델 평가를 위한 단순한 도구 선택이 아니라, 우리 팀이 어떤 문제를 중요하게 보는지를 정의하는 과정입니다.

Lomin은 실제 업무 문서 환경에 맞는 OCR 평가 체계를 바탕으로 Document AI 성능을 지속적으로 검증하고 개선해 나가고 있습니다.