ICL-D3IE: In-Context Learning with Diverse Demonstrations Updating for Document Information Extraction
ICL-D3IE는 문서 정보 추출(DIE)을 위한 In-Context Learning 프레임워크로, 다양한 예시를 사용해 LLM의 정확성과 성능을 향상시킵니다. FUNSD, CORD, SROIE 등의 벤치마크에서 기존 방법 대비 우수한 성능을 보입니다.
Dec 08, 2023
이 논문은 GPT-3 및 ChatGPT와 같은 대규모 언어 모델(LLMs)을 문서 정보 추출(DIE)에 효과적으로 활용할 수 있도록 하는 새로운 프레임워크인 ICL-D3IE를 소개합니다. Hard demonstration과 반복적인 demonstration 업데이트를 사용하여 기존 방법들을 크게 능가합니다.
Introduction
Key contributions
- DIE를 위한 In-context 방법 (ICL-D3IE): 이 논문은 대규모 언어 모델(LLMs)이 문서 정보 추출(DIE) 작업을 효과적으로 수행할 수 있도록 하는 독특한 프레임워크인 ICL-D3IE를 소개합니다. 이 프레임워크는 주어진 맥락 내에서 다양한 유형의 데모 예시를 사용하여 작동하도록 설계되었습니다.
- DIE의 modality 및 task 격차 해결: ICL-D3IE는 LLMs를 DIE에 적용할 때 발생하는 modality 및 task 격차 문제를 해결합니다. 이는 레이아웃 정보를 포함하고, 모든 테스트 문서에 이익이 되며, 쉽게 추출 가능한 형식으로 레이블을 예측하는 demonstration을 구축하는 것을 포함합니다.
- 벤치마크 데이터셋에서의 우수한 성능: FUNSD, CORD, SROIE와 같은 널리 사용되는 벤치마크 데이터셋에서의 실험을 통해, ICL-D3IE 프레임워크는 in-distribution(ID) 및 out-of-distribution(OOD) 설정 모두에서 이전의 사전 훈련된 방법들에 비해 우수하거나 비슷한 성능을 보여주었습니다. 이는 LLMs를 VRD 관련 작업에 활용하는 새로운 방법을 제시합니다.
Proposed Method
Overview
알고리즘은 다음과 같이 총 세 개의 step으로 이루어집니다.
- 테스트 샘플과 동일한 수의 (nearest-neighbor) 샘플을 선택
- In-context learning을 위한 diverse demonstration 구축
- Diverse demonstration을 K번 업데이트
Nearest Neighbor Document Selection
N개의 테스트 문서와 가장 유사한 N개의 훈련 문서를 선택하여 in-context learning에 사용합니다. 이 과정은 OCR을 사용하여 문서 이미지를 일반 텍스트로 변환하고, SentenceBERT로 representation을 얻은 후 코사인 유사도 점수를 계산하여 각 테스트 문서에 가장 유사한 training sample을 식별합니다.
Diverse Demonstrations Construction
ICL-D3IE 프레임워크에서 "diverse demonstration"은 일반적인 in-context learning이 제공하는 것을 넘어서 task의 다양한 측면을 다루는 데 중요합니다. 이들은 task의 어려운 측면을 강조하는 hard demonstration, 텍스트 위치 이해를 위한 layout-aware demonstration, 출력 형식 예제를 제공하는 포맷팅 데모를 포함하여 LLM의 처리 능력을 향상시킵니다.
- Initial Hard Demonstrations
- “What are the labels for these texts?” 와 같은 프롬프트를 통해 GPT-3로부터 nearest-neighbor 샘플의 entity의 label을 유추
- Entity-level F1 score가 가장 낮은 text segment을 사용
- Layout-aware Demonstrations
- 위에서 추출된 을 만들 때 사용된 hard segments들 중 인접한 것들을 추출하여 region 생성
- “Please describe the positional relationship of these texts” 와 같은 프롬프트를 사용해 GPT-3로부터 에 포함된 text segment들 사이의 위치 관계를 유추
- Formatting Demonstrations
- DIE task에 적합한 형태로 출력할 수 있도록 포맷 가이드
- Nearest neighbor 문서로부터 아무 텍스트나 랜덤하게 추출
- Label Mapping
- Word label을 GPR-3가 효과적으로 예측할 수 있는 answer space에 매핑하기 위함
- 예를 들어, Label=”total. cash price” 에 해당하는 설명 “the amount paid in cash.” 을 붙여서 사용
Diverse Demonstrations Updating
- DIE task에서 어려운 부분을 더 강조하기 위해, ICL-D3IE 알고리즘은 이전 demonstration으로부터 도출된 더 어려운 hard demonstration을 반복적으로 업데이트.
- 는 모든 nearest-neighbor 샘플에 대해 추론하는데 사용되며 모든 entity에서 F1 score가 계산됨
- 가장 낮은 F1-score를 가지는 text segment가 hard demonstration에 append.
- k번 반
Experiment
Dataset
FUNSD, CORD, SROIE 데이터셋 사용
Baseline
- Pre-trained + fine-tuned with full training samples
- Pre-trained + fine-tuned with few training samples
- Standard in-context learning
Implementations
- GPT-3: text-davinci-003 (175B)
- ChatGPT: gpt-3.5-turbo with API
- Used 4 hard demonstrations, 4 layout-aware demonstrations, and 4 formatting demonstrations
Results
Full-training, Few-shot training, Standard in-context learning에 비해 훨씬 높은 벤치마크 성능을 보여줍니다.
Hard demonstration, Layout-aware demonstration, Label Mapping, Formatting Demonstrations 모두 성능 향상에 중요한 역할을 했음을 알 수 있습니다.
Conclusions
이 논문에서는 LLM을 DIE task에 적용하는 데 있어 모달리티 및 작업 격차 문제를 해결하는 in-context 프레임워크인 ICL-D3IE를 제안했습니다. ICL-D3IE는 모든 테스트 인스턴스에 이익이 되는 어려운 훈련 문서의 도전적인 부분을 추출하고, 문서 레이아웃을 이해할 수 있도록 위치 관계를 설명하는 demonstration을 설계하며, 쉬운 답변 추출을 위한 formatting demonstrationdmf 도입했습니다. CORD의 ID 설정을 제외하고 ICL-D3IE는 다른 방법들에 비해 일관되게 우수한 성능을 보여주었으며, 이 결과는 LLM 기반 VRD 이해 작업을 위한 in-context learning 프레임워크의 잠재력을 보여줍니다.
Share article