PaddleOCR

PaddleOCR은 Baidu의 딥러닝 프레임워크 PaddlePaddle을 기반으로 한 OCR 솔루션입니다. 최신 버전인 PP-OCRv3는 경량 모델과 강력한 다국어 인식을 제공하며, PP-Structure는 레이아웃 분석, 표 인식, VQA 등을 지원하여 문서 구조 분석을 돕습니다.

Inc Lomin

Oct 11, 2022

Introduction

PaddleOCR aims to create multilingual, awesome, leading, and practical OCR tools that help users train better models and apply them into practice.

Paddlepaddle은 바이두의 딥러닝 프레임워크 이름으로, Tensorflow나 PyTorch와 같은 다른 프레임워크들과 같이 생태계를 가지고 있습니다. PaddleOCR은 그 중에서 OCR에 필요한 여러 기능을 가지고 있는 repository로, PaddlePaddle 프로젝트들 중 흥미롭게도 가장 많은 22K 스타를 자랑하고 있습니다.

PP-OCR은 단순 OCR 뿐만 아니라 Structured Document Analysis, Doc-VQA,라벨링 툴까지 여러 기능을 포함하고 있습니다.

PP-OCRv3

PP-OCR은 상용 수준에서 사용할 수 있는(practical) 가벼운 OCR 알고리즘으로, 여러 딥러닝 알고리즘을 적용하면서 v3까지 발표되었습니다. 기본적으로 detection & recognition으로 구성된 2-stage 알고리즘이라 소개하지만 가운데 detection 방향을 결정하는 모델이 하나 더 있습니다.

PP-OCR (v1)은 Differentiable Binarization(DB) 알고리즘을 text detector, CRNN을 text recognizer로 사용하였고 v2에서는 Knowledge distillation, augmentation, CTC loss 등의 기법을 많이 적용하였습니다. v3에서는 recognition 모델을 RNN에서 Transformer로 교체하고 self-supervised pre-trained weight를 사용하는 등의 변화로 다시 한번 성능을 높였습니다.

아래는 v3의 구조입니다.