ICL-D3IE: In-Context Learning with Diverse Demonstrations Updating for Document Information Extraction

ICL-D3IE는 문서 정보 추출(DIE)을 위한 In-Context Learning 프레임워크로, 다양한 예시를 사용해 LLM의 정확성과 성능을 향상시킵니다. FUNSD, CORD, SROIE 등의 벤치마크에서 기존 방법 대비 우수한 성능을 보입니다.

Inc Lomin

Dec 08, 2023

ICL-D3IE: In-Context Learning with Diverse Demonstrations Updating for Document Information Extraction

Contents

Introduction Proposed Method Experiment Conclusions

이 논문은 GPT-3 및 ChatGPT와 같은 대규모 언어 모델(LLMs)을 문서 정보 추출(DIE)에 효과적으로 활용할 수 있도록 하는 새로운 프레임워크인 ICL-D3IE를 소개합니다. Hard demonstration과 반복적인 demonstration 업데이트를 사용하여 기존 방법들을 크게 능가합니다.

Introduction

Key contributions

DIE를 위한 In-context 방법 (ICL-D3IE): 이 논문은 대규모 언어 모델(LLMs)이 문서 정보 추출(DIE) 작업을 효과적으로 수행할 수 있도록 하는 독특한 프레임워크인 ICL-D3IE를 소개합니다. 이 프레임워크는 주어진 맥락 내에서 다양한 유형의 데모 예시를 사용하여 작동하도록 설계되었습니다.

DIE의 modality 및 task 격차 해결: ICL-D3IE는 LLMs를 DIE에 적용할 때 발생하는 modality 및 task 격차 문제를 해결합니다. 이는 레이아웃 정보를 포함하고, 모든 테스트 문서에 이익이 되며, 쉽게 추출 가능한 형식으로 레이블을 예측하는 demonstration을 구축하는 것을 포함합니다.

벤치마크 데이터셋에서의 우수한 성능: FUNSD, CORD, SROIE와 같은 널리 사용되는 벤치마크 데이터셋에서의 실험을 통해, ICL-D3IE 프레임워크는 in-distribution(ID) 및 out-of-distribution(OOD) 설정 모두에서 이전의 사전 훈련된 방법들에 비해 우수하거나 비슷한 성능을 보여주었습니다. 이는 LLMs를 VRD 관련 작업에 활용하는 새로운 방법을 제시합니다.

Proposed Method

Overview

알고리즘은 다음과 같이 총 세 개의 step으로 이루어집니다.

테스트 샘플과 동일한 수의 (nearest-neighbor) 샘플을 선택

In-context learning을 위한 diverse demonstration 구축

Diverse demonstration을 K번 업데이트

Nearest Neighbor Document Selection

N개의 테스트 문서와 가장 유사한 N개의 훈련 문서를 선택하여 in-context learning에 사용합니다. 이 과정은 OCR을 사용하여 문서 이미지를 일반 텍스트로 변환하고, SentenceBERT로 representation을 얻은 후 코사인 유사도 점수를 계산하여 각 테스트 문서에 가장 유사한 training sample을 식별합니다.

Diverse Demonstrations Construction

ICL-D3IE 프레임워크에서 "diverse demonstration"은 일반적인 in-context learning이 제공하는 것을 넘어서 task의 다양한 측면을 다루는 데 중요합니다. 이들은 task의 어려운 측면을 강조하는 hard demonstration, 텍스트 위치 이해를 위한 layout-aware demonstration, 출력 형식 예제를 제공하는 포맷팅 데모를 포함하여 LLM의 처리 능력을 향상시킵니다.

Initial Hard Demonstrations

“What are the labels for these texts?” 와 같은 프롬프트를 통해 GPT-3로부터 nearest-neighbor 샘플의 entity의 label을 유추
Entity-level F1 score가 가장 낮은 text segment을 사용

Layout-aware Demonstrations

위에서 추출된 을 만들 때 사용된 hard segments들 중 인접한 것들을 추출하여 region 생성
“Please describe the positional relationship of these texts” 와 같은 프롬프트를 사용해 GPT-3로부터 에 포함된 text segment들 사이의 위치 관계를 유추

Formatting Demonstrations

DIE task에 적합한 형태로 출력할 수 있도록 포맷 가이드
Nearest neighbor 문서로부터 아무 텍스트나 랜덤하게 추출

Label Mapping

Word label을 GPR-3가 효과적으로 예측할 수 있는 answer space에 매핑하기 위함
예를 들어, Label=”total. cash price” 에 해당하는 설명 “the amount paid in cash.” 을 붙여서 사용

Diverse Demonstrations Updating

DIE task에서 어려운 부분을 더 강조하기 위해, ICL-D3IE 알고리즘은 이전 demonstration으로부터 도출된 더 어려운 hard demonstration을 반복적으로 업데이트.

는 모든 nearest-neighbor 샘플에 대해 추론하는데 사용되며 모든 entity에서 F1 score가 계산됨

가장 낮은 F1-score를 가지는 text segment가 hard demonstration에 append.

k번 반

Experiment

Dataset

FUNSD, CORD, SROIE 데이터셋 사용

Baseline

Pre-trained + fine-tuned with full training samples

Pre-trained + fine-tuned with few training samples

Standard in-context learning

Implementations

GPT-3: text-davinci-003 (175B)

ChatGPT: gpt-3.5-turbo with API

Used 4 hard demonstrations, 4 layout-aware demonstrations, and 4 formatting demonstrations

Results

Full-training, Few-shot training, Standard in-context learning에 비해 훨씬 높은 벤치마크 성능을 보여줍니다.

Hard demonstration, Layout-aware demonstration, Label Mapping, Formatting Demonstrations 모두 성능 향상에 중요한 역할을 했음을 알 수 있습니다.

Conclusions

이 논문에서는 LLM을 DIE task에 적용하는 데 있어 모달리티 및 작업 격차 문제를 해결하는 in-context 프레임워크인 ICL-D3IE를 제안했습니다. ICL-D3IE는 모든 테스트 인스턴스에 이익이 되는 어려운 훈련 문서의 도전적인 부분을 추출하고, 문서 레이아웃을 이해할 수 있도록 위치 관계를 설명하는 demonstration을 설계하며, 쉬운 답변 추출을 위한 formatting demonstrationdmf 도입했습니다. CORD의 ID 설정을 제외하고 ICL-D3IE는 다른 방법들에 비해 일관되게 우수한 성능을 보여주었으며, 이 결과는 LLM 기반 VRD 이해 작업을 위한 in-context learning 프레임워크의 잠재력을 보여줍니다.