google-site-verification=EH-INoJJCFk7-jAvyaAripclA4Dj9Sls8azb-V03bkk

OCR 벤치마크는 어떻게 골라야 할까?

OCR 벤치마크를 선택할 때 accuracy만 보면 안 되는 이유와 General, Layout, VQA, Table, Equation 기준의 평가 방식, 주요 metric, 실무 운영 포인트를 정리합니다.
Inc Lomin's avatar
May 11, 2026
OCR 벤치마크는 어떻게 골라야 할까?

OCR 벤치마크는 단일 accuracy 점수가 아니라 task별 평가 목적과 metric(평가 지표) 기준으로 선택해야 합니다. 실무에서는 텍스트 인식뿐 아니라 문서 구조, 표, 수식, 질의응답까지 포함된 평가 범위와 재현 가능한 평가 방식이 핵심 기준이 됩니다.

  • OCR 평가는 accuracy 하나가 아니라 task별 metric 이해에서 시작됩니다.

  • benchmark는 General / Layout / VQA / Table / Equation으로 나누면 비교가 쉬워집니다.

  • 실무 기준 주요 후보: CC-OCR, OmniDocBench, OCRBench v2, DocVQA, UniMER

  • 주요 한계: 한국어 커버리지 부족, 재현성 문제, 전처리 비용

  • 장기적으로는 한국어 + 범용 task 통합 benchmark 설계가 필요합니다.

1. 배경: 왜 OCR 벤치마크 선택이 어려운가

OCR은 더 이상 “글자를 얼마나 정확히 읽는가”만으로 설명되지 않습니다.

실제 Document AI(문서 이해 기반 AI) 환경에서는 다음과 같은 능력이 함께 요구됩니다.

  • 문서 구조 이해(제목, 본문, 표, 각주 구분)

  • 읽기 순서(reading order) 복원

  • 표 구조화(HTML, JSON 등) 및 복원

  • 수식 → LaTeX 변환

  • 문서 기반 질의응답(VQA, Visual Question Answering)

문제는 benchmark마다 평가 범위가 다르다는 점입니다. 같은 모델이라도,

  • 어떤 benchmark에서는 성능이 좋아 보이고

  • 다른 benchmark에서는 성능이 부족해 보일 수 있습니다.

즉, benchmark 선택 = 평가 기준을 정의하는 일입니다.

2. 요구사항: 좋은 OCR 벤치마크의 조건

실무에서 benchmark를 고를 때 중요한 기준은 다음 5가지입니다.

2.1 서비스와의 적합성

  • 단순 OCR(Reader) vs 문서 파싱 vs 이해(VQA)

  • 실제 제품 기능과 얼마나 연결되는가

2.2 반복 실험 가능성

  • 데이터가 너무 작으면 결과가 불안정

  • 너무 크면 비용 과다

→ 지속적으로 반복 평가 가능한 규모가 중요

2.3 언어 커버리지

  • 대부분 영어/중국어 중심

→ 한국어 포함 여부 또는 다국어 확장 가능성 중요

2.4 평가 형식 일관성

  • QA / JSON / HTML / LaTeX 등 다양한 형식의 존재

→ 평가 파이프라인을 일관되게 운영할 수 있는가가 중요

2.5 재현성(Reproducibility)

  • metric 정의가 명확한가

  • 전처리/후처리 과정이 공개되어 있는가

3. 핵심: 먼저 metric부터 이해해야 한다

benchmark 비교의 핵심은 모델이 아니라 metric(평가 지표)입니다.

주요 metric 4가지

1) Levenshtein Distance / NID(Normalized Edit Distance)

  • 문자열 간 차이를 측정하는 방식

  • OCR 결과 비교에서 가장 기본적인 지표

→ “한 글자씩 얼마나 다른가”를 측정

2) TEDS(Tree Edit Distance-based Similarity)

  • 표 구조 + 내용을 함께 평가

  • TEDS-S: 구조만 평가

3) ANLS(Average Normalized Levenshtein Similarity)

  • 정답과 완전히 동일하지 않아도 의미적으로 유사하면 인정

  • VQA(Visual Question Answering)에서 활용

4) Exact Match

  • 완전 일치 여부 평가

  • 특히 수식(LaTeX)에서는 매우 중요

결국 benchmark 선택은 데이터셋을 고르는 일이자, 우리 팀이 어떤 오류를 중요하게 볼 것인지 정의하는 일입니다.

4. 구조 이해: OCR benchmark를 나누는 5가지 축

OCR benchmark는 아래 5개 축으로 나누어 보면 이해하기 쉽습니다.

→ 실무에서는 보통 General + 특정 task 조합으로 사용합니다.

구분

설명

대표 benchmark

General

범용 OCR 및 문서 전반 성능 평가

CC-OCR, OmniDocBench, OCRBench v2

Layout

문서 구조 인식 및 분류 평가

DocLayNet, D4LA

VQA

문서 기반 질의응답 능력 평가

DocVQA

Table

표 구조 복원 능력 평가

PubTabNet, FinTabNet

Equation

수식 이미지 → LaTeX 변환 능력 평가

UniMER, LaTeX-80M

5. 주요 benchmark 비교

Benchmark

평가 영역

장점

한계

적합한 상황

CC-OCR

문서 파싱, KIE, 다국어

한국어 포함, task 다양

answer 포맷 불일치

baseline 구축

OmniDocBench

layout + OCR + table + equation

end-to-end 평가 가능

언어 다양성 제한

전체 파이프라인 평가

OCRBench v2

OCR + VQA + relation

VLM 친화적

영어/중국어 중심

모델 비교

DocVQA

문서 질의응답

명확한 QA 구조

OCR 자체 평가는 제한

이해 능력 평가

UniMER

수식 인식

metric 명확

범용성 낮음

수식 특화

6. 운영 포인트

6.1 benchmark는 바로 사용할 수 있는 형태가 아니다

  • 전처리 / 후처리 필요

  • label format 변환 필요

6.2 metric 계산 방식 확인 필수

  • 동일한 metric이라도 구현 방식에 따라 결과가 달라질 수 있음

6.3 leaderboard는 참고용

  • 실제 서비스에서의 실패 패턴은 별도로 분석 필요

6.4 평가 자동화가 핵심

  • 수작업 평가 → 운영 불가능

→ 자동 평가 파이프라인 구축이 필수

7. 한계 및 트레이드오프

주요 한계

  • 한국어 중심 benchmark 부족

  • metric 계산 방식 및 추론 pipeline이 불투명한 경우 존재

  • 추가 전처리 비용 발생

  • 종합 점수만으로는 실제 성능 판단이 어려움

트레이드오프

선택

장점

단점

큰 benchmark

신뢰도 높음

비용 증가

다양한 task

현실 반영

복잡도 증가

strict metric

정확도 높음

유연성 낮음

loose metric

현실 반영

평가 불안정

트레이드오프: 하나를 얻으면 다른 하나를 포기해야 하는 관계

8. 앞으로의 방향

향후 benchmark 설계 시 중요한 원칙은 다음과 같습니다.

  • 한국어 중심 + 다국어 확장

  • OCR + Parsing + VQA 통합

  • VLM(Vision-Language Model) 친화적 구조

  • 자동 평가 가능한 포맷

OCR benchmark 선택은 모델 평가를 위한 단순한 도구 선택이 아니라, 우리 팀이 어떤 문제를 중요하게 보는지를 정의하는 과정입니다.

Lomin은 실제 업무 문서 환경에 맞는 OCR 평가 체계를 바탕으로 Document AI 성능을 지속적으로 검증하고 개선해 나가고 있습니다.

Share article