LayoutLMv3: Pre-training for Document AI with Unified Text and Image Masking

Self-supervised pre-training 기술은 Document AI에서 많은 발전을 이루었습니다. 대부분의 multimodal 모델은 텍스트에 대해 masked language modeling(MLM)을 사용하여 사전 학습하지만 이미지 학습에 대해서는 다양한 방식이 존재합니다.

Inc Lomin

Jun 28, 2022

LayoutLMv3: Pre-training for Document AI with Unified Text and Image Masking

Contents

Introduction Model Architecture Experiments Ablation Study Conclusion

Introduction

Self-supervised pre-training 기술은 Document AI에서 많은 발전을 이루었습니다.

대부분의 multimodal 모델은 텍스트에 대해 masked language modeling(MLM)을 사용하여 사전 학습하지만 이미지 학습에 대해서는 다양한 방식이 존재합니다.

LayoutLMv3는 텍스트와 이미지 마스킹을 사용하여 Document AI에 적합한 multimodal Transformers을 사전학습 시키는 방법을 제안하였습니다.

DocFormer는 CNN 디코더를 통해 이미지 픽셀을 재구성하는 방법을 학습합니다.

SelfDoc는 마스크 영역 피쳐들을 회귀하는 방식으로 학습합니다. → 더 작은 어휘 단위로 학습하는 것에 비해 어렵습니다.

→ CNN 모델들을 계산하는 과정에 병목 지점들이 있습니다.

LayoutLMv3에 대한 특징은 다음과 같습니다.

• visual feature을 추출하기 위해 사전 훈련된 CNN 또는 Faster R-CNN 백본에 의존하지 않는 Document AI의 최초의 multimodal 모델입니다. 매개변수를 크게 절약하고 영역 annotation을 사용하지 않아도 됩니다.

• MLM 및 MIM을 통해 텍스트와 이미지 학습 간의 불일치를 완화합니다. 또한 cross-modal 학습을 용이하게 하기 위해 Word-Patch Alignment(WPA) 방법을 사용합니다.

• LayoutLMv3은 텍스트 중심 및 이미지 중심 Document AI 작업 테스크를 위한 범용 모델입니다. 처음으로 Document AI의 비전 작업에 대한 multimodal transformer에서 일반성을 보여줍니다.

• Document AI의 텍스트 중심 테스크과 이미지 중심 테스크에서 sota 성능을 달성했습니다.

Model Architecture

입력 문서 이미지와 해당 텍스트 및 레이아웃 위치 정보가 주어지면 모델은 패치와 단어 토큰의 linear projection을 입력으로 가져와 컨텍스트화된 벡터 표현으로 인코딩합니다. LayoutLMv3은 MLM(Masked Language Modeling) 및 MIM(Masked Image Modeling)를 통해 사전 훈련되었습니다. 또한 LayoutLMv3은 WPA(Word-Patch Alignment) 로 사전 학습되어 텍스트 단어의 해당 이미지 패치가 마스킹되었는지 여부를 예측하여 cross-modal alignment을 학습합니다.

텍스트 임베딩 : 기성 OCR로 문서 이미지를 Pre-Processing을 진행합니다. 1D Position Embedding은 텍스트 시퀀스 내의 토큰 인덱스입니다. 2D Position Embedding은 LayoutLM과 동일하게 좌표 상자를 사용하지만 단어 수준 레이아웃이 아닌 세그먼트 수준 레이아웃 position을 사용합니다.

이미지 임베딩 : 문서 이미지의 크기를 H × W로 조정하고 P × P 패치 시퀀스로 분할합니다. 각 패치에 표준 학습 가능한 1D 위치 임베딩을 추가합니다. 실험에서 2D 위치 임베딩을 사용하여 개선된 점이 없어 사용하지 않습니다. 텍스트 및 이미지 양식에 대한 self-attention 네트워크에서 1D position과 2D position의 상대 위치를 bias로 삽입합니다.

Pre-training Objectives

Transformer 모델의 매개변수를 θ라고 하였을 때 교차 엔트로피 손실을 최소화합니다.

X는 이미지 토큰, Y는 텍스트 토큰이고 M,L은 각각 마스킹 위치입니다.

Masked Language Modeling (MLM) : 텍스트 토큰의 30%를 마스킹합니다.

Masked Image Modeling (MIM) : 이미지 토큰의 40%를 마스킹합니다.

Word-Patch Alignment (WPA) : WPA 목표는 텍스트 단어의 해당 이미지 패치가 마스킹되었는지 여부를 예측하는 것입니다. L − L’은 마스킹되지 않은 텍스트 토큰의 수 입니다.

Experiments

LayoutLMv3BASE : 12-layer Transformer encoder, 12-head self-attention, hidden size 768

LayoutLMv3LARGE : 24-layer Transformer encoder, 16-head self-attention, hidden size 1024

최대 시퀀스 길이 512, Byte-Pair Encoding (BPE) 으로 텍스트 토큰화를 진행했습니다.

IIT-CDIP Test Collection 1.0 : 약 1,100만 개의 문서 이미지를 포함하고 4,200만 페이지로 분할할 수 있는 대규모 스캔 문서 이미지 데이터 세트로 이 중 1,100만 개를 사용하여 학습했습니다.

Adam optimizer

500,000 step

batch size : 2048

learning rate : 1e−4

"T/L/I"는 "텍스트/레이아웃/이미지" 양식을 나타냅니다.

"R/G/P"는 "영역/그리드/패치" 이미지 임베딩을 나타냅니다.

‡로 표시된 모델은 훈련 시 더 많은 데이터를 사용하여 높은 점수를 받았습니다.

Ablation Study

Effect of Linear Image Embedding

이미지 임베딩이 없는 모델 #1이 일부 작업에서 합리적인 결과를 얻었습니다. 이는 텍스트 및 레이아웃 정보를 포함한 언어 양식이 문서 이해에 중요한 역할을 함을 시사합니다.

Effect of MIM pre-training objective

선형 이미지 임베딩을 모델 #2에 대한 입력으로 텍스트 임베딩과 연결하기만 하면 성능이 저하되는 것을 볼 수 있습니다. 모델이 선형 패치 임베딩에서 의미 있는 시각적 표현을 학습하는 데 실패했다고 추측합니다.

모델 #3과 모델 #2의 결과를 비교하면 MIM 목표는 CORD와 RVL-CDIP에서 높은 성능을 볼 수 있습니다.

FUNSD는 Linear Embedding을 사용하면서 이미 성능 향상을 했기 때문에 MIM에서는 영향을 받지 않습니다.

Effect of WPA pre-training objective

모델 #3과 #4를 비교했을 때 WPA가 모든 multimodal 테스크에서 일관되게 개선된 것을 확인할 수 있습니다.

PubLayNet 데이터 셋을 finetuning 진행하면서 확인한 loss 그래프입니다.

Conclusion

이 논문에서는 LayoutLMv3을 제시하여 Document AI를 위한 multimodal transtormer를 사전 학습합니다. LayoutLMv3은 시각적 기능을 추출하기 위해 CNN 또는 Faster R-CNN을 사용하지 않으므로 파라미터를 크게 절약하고 pre-processing에 적은 노력을 쏟아도 됩니다. 광범위한 실험 결과는 단순한 아키텍처와 통합된 목표를 가진 텍스트 중심 및 이미지 중심 Document AI 작업 모두에 대해 LayoutLMv3의 일반성과 우수성을 입증했습니다.