LinkBERT: Pretraining Language Models with Document Links

BERT와 같은 기존 모델들은 단일 문서 내 텍스트 말뭉치에 대해서만 학습을 진행하고 문서 간의 종속성은 학습하지 않습니다. 이 연구에서는 문서 간 Link를 활용하여 문서 간 종속성도 학습할 수 있는 LinkBERT를 제안합니다.

Inc Lomin

Oct 11, 2022

LinkBERT: Pretraining Language Models with Document Links

Contents

Language Model (LM)의 사전학습은 텍스트 말뭉치에서 다양한 지식을 학습하고 downstream task에서 도움을 줍니다.

LinkBERT는 하이퍼링크가 있는 Wikipedia로 사전학습된 일반 도메인과 인용 링크가 있는 PubMed 데이터로 사전학습된 생물, 의학 도메인의 downstream에서 BERT를 능가하는 것을 보여줍니다.

Introduction

일반적인 Language Model의 사전 학습에서의 문제는 한 번에 단일 문서의 텍스트만 고려한다는 것입니다.

각 문서를 독립적으로 취급하는 것은 문서가 서로에게 종속성을 갖는 경우가 많기 때문에 제한이 있을 수 있습니다.

예를 들어 웹의 텍스트 또는 과학 문헌들은 Language Model 학습에 자주 사용되지만 모두 하이퍼링크 및 인용 링크와 같은 문서 링크가 있습니다. 지식은 단일 문서를 넘어 여러 문서에 걸쳐 있을 수 있으므로 문서 링크는 중요합니다.

아래 그림의 왼쪽에 "Tidal Basin, Washington DC"라는 문서에서는 "National Cherry Blossom Festival"을 개최한다는 내용이 있고, 오른쪽의 하이퍼링크된 문서로 이동하면 “축제는 Japanese Cherry trees를 기념합니다.” 라는 내용을 볼 수 있습니다.

두 문서를 결합하면 “Tidal Basin”에는 “Japanese cherry trees”를 가지고 있다는 정보를 얻을 수 있습니다. 이는 단일 문서에서는 얻을 수 없는 새로운 multi-hop 지식을 얻을 수 있습니다.

기존 Language Model

LinkBERT

LinkBERT 학습을 위해 텍스트 코퍼스가 주어지면 하이퍼링크와 같은 문서 간의 링크를 얻습니다.

그다음 Text Segment A에 Contiguous, Random, Linked 3가지 방법으로 Text Segment B를 선정하고 Input을 만듭니다.

Contiguous

동일한 문서에 대해 연속되는 text segment

본질적으로 이전 Language Model 들과 동일합니다.

Random

임의의 문서에 있는 임의의 text segment

Linked

링크 된 문서에 대한 text segment

그러고 나서 사전학습은 Masked language modeling(MLM), Document relation prediction(DRP) 두 가지 목표를 통해 진행됩니다.

MLM

MLM에서는 입력 텍스트의 일부 토큰을 마스킹 한 다음 주변 토큰을 사용하여 토큰을 예측합니다.

링크를 통해 다른 문서의 정보를 가져왔기 때문에 Multi-hop 지식을 학습하게 됩니다.

DRP

DRP에서는 다음 문장 예측을 넘어 Segment A와 Segment B의 관계가 Contiguous, Random, Linked 중 어떤 것인지 예측하여 문서 간의 관련성을 학습하게 됩니다.

LinkBERT는 Wikipidia와 같은 General 데이터의 경우 MRQA 벤치마크와 GLUE 벤치마크에서 BERT를 능가했습니다.

생물의학 데이터의 경우 BLURB biomedical NLP 벤치마크와 MedQA-USMLE reasoning task에서 PubmedBERT을 능가했습니다.

전반적으로 LinkBERT는 Multi Document Understanding과 QA 태스크에서 큰 성능 향상을 얻었고, 이는 문서 링크 정보를 통해서 기존의 Language Model보다 많은 지식을 학습한다는 것을 시사합니다.

Related work

Retrieval-augmented LMs

Lewis et al. (2020) Karpukhin et al. (2020) Oguz et al. (2020) Xie et al. (2022) Guu et al. (2020) (Asai et al., 2020)

Pretrain LMs with related documents

여러 관련 문서를 사용하여 LM을 학습한 연구

Caciularu et al. (2021) Levine et al. (2021)

Hyperlinks and citation links for NLP

하이퍼링크를 사용한 연구

Chang et al. (2020) Asai et al. (2020) Seonwoo et al. (2021) Calixto et al. (2021) Qazvinian and Radev (2008) Yasunaga et al. (2019) Bhagavatula et al. (2018) Khadka et al. (2020) Cohan et al. (2020)

Graph-augmented LMs

Graph를 활용한 연구

Zhang et al. (2019) He et al. (2020) Wang et al. (2021) Sun et al. (2020) Yasunaga et al. (2021) Zhang et al. (2022)

Preliminaries

Masked language modeling (MLM)

일련의 토큰 X가 주어지면 토큰 Y ⊆ X의 하위 집합이 마스킹 되고 원래 토큰을 예측

Y는 X에 있는 토큰의 15%

이 중 80%는 [MASK]로, 10%는 임의 토큰으로, 10%는 변경되지 않은 상태로 유지

Next sentence prediction (NSP)

NSP는 두 개의 텍스트 세그먼트(XA, XB)를 입력으로 사용하고 XB가 XA의 연속된 텍스트인지 예측

LinkBERT

4.1 Document graph

문서 그래프를 구성하려면 문서 X(i) 에서 문서 X(j) 로의 하이퍼링크가 있는 경우 edge ( X(i) ,X(j) )를 추가합니다.

각 문서 X(i) 에 대해 공통적으로 TF-IDF cosine similarity metric을 사용하여 top-k 개의 문서 X(j) 를 통해 edge ( X (i) ,X(j) ) 를 만듭니다. 본 연구에서는 k=5를 사용합니다.

비교를 위해 문서 간의 어휘 유사성으로 작성된 문서 그래프도 실험합니다.

4.2 Pretraining tasks

Creating input instances

문서 전반에 걸친 지식을 효과적으로 학습하기 위해 단일 문서, 임의 문서 또는 링크된 문서를 동일한 컨텍스트 창에 배치하여 Input을 생성합니다.

먼저 말뭉치에서 앵커 텍스트 세그먼트 A를 샘플링합니다

다음 세그먼트 B의 경우 아래의 3가지 방법중 하나로 샘플링합니다.

contiguous segment from the same document.

sample a segment from a random document.

sample a segment from one of the documents linked from Segment A.

마지막으로 특수 토큰을 활용하여 두 세그먼트를 결합하여 input instance를 생성합니다.

Training objectives

MLM

DPR(Document Relation Prediction)에서는 세그먼트 A와 세그먼트 B의 관계 r을 분류합니다.

r을 예측하기 위해 [CLS] 토큰을 사용합니다.

hi는 [CLS] XA [SEP] XB [SEP] 인스턴스의 representation이고 xi는 입력 인스턴스의 각 토큰입니다.

Graph machine learning perspective

LinkBERT의 특징은 그래프 모델 관점에서 볼 수 있다는 점입니다.

graph self-supervised learning에서는 그래프의 내용과 구조를 학습하기 위해 노드 특징 예측과 링크 예측이라는 두 가지 유형의 작업이 일반적으로 사용됩니다

노드 특징 예측

이웃 노드를 사용하여 노드의 마스킹 된 특징을 예측하는 것입니다. 이것은 세그먼트 B를 사용하여 세그먼트 A의 마스킹 된 토큰을 예측하고 그 반대의 경우도 마찬가지인 MLM에 해당합니다.

링크 예측

이는 두 노드 사이의 에지의 존재 또는 유형을 예측하는 것입니다. 이것은 DRP에 해당하며, 여기서 두 개의 세그먼트가 linked(edge), contiguous(self-loop edge) 또는 random(no edge)인지 예측합니다.

이 접근 방식은 language-based와 graph-based의 자연스러운 융합이라고 볼 수 있습니다.

4.3 Strategy to obtain linked documents

유용한 링크 문서를 얻기 위해 고려해야 할 세 가지 핵심 내용입니다.

Relevance.

문서 간의 링크를 구축할 때 의미론적 관련성이 필요합니다.

링크가 관련성 없이 무작위로 구축된 경우 LinkBERT는 BERT와 동일하며 LM의 input이 (contiguous, random) 두 가지만 있는 효과입니다.

관련성은 하이퍼링크 또는 lexical similarity metrics(어휘 유사성 메트릭)을 사용해 확인할 수 있으며, 두 방법 모두 랜덤 링크를 사용하는 것보다 훨씬 더 나은 성능을 제공합니다.

Salience.

관련성 외에도 고려해야 할 또 다른 요소는 연결된 문서가 현재 LM이 잘 학습하지 못할 만한 새롭고 유용한 지식을 제공할 수 있는지입니다.

하이퍼링크는 이 점에서 어휘 유사성 링크보다 잠재적으로 더 유리합니다. LM은 어휘 유사성을 잘 인식하는 것으로 나타납니다.

하이퍼링크는 어휘 유사성만으로는 명확하지 않을 수 있는 유용한 배경지식을 가져올 수 있습니다. 실제로, 하이퍼링크를 사용하면 더 성능이 좋은 LM이 생성된다는 것을 경험적으로 확인했습니다.

Diversity.

문서 그래프에서 일부 문서는 매우 높은 차수(예: 하이퍼링크로 자주 연결되는 문서 “대한민국”, “미국”)를 갖고 다른 문서는 낮은 차수를 가질 수 있습니다.

각 앵커 세그먼트에 대해 링크된 문서에서 균일하게 샘플링하면 전체 교육 데이터에 높은 수준의 문서를 너무 자주 포함하여 다양성을 잃을 수 있습니다.

모든 문서가 훈련에서 유사한 빈도로 나타나도록 해당 차수에 반비례하는 확률로 링크된 문서를 샘플링합니다. 우리는 이 기술이 더 나은 LM 성능을 산출한다는 것을 발견했습니다.

Experiments

Data.

BERT에서 사용한 것과 동일한 Wikipedia 및 BookCorpus를 사용합니다.

Wikipedia의 경우 WikiExtractor3를 사용하여 Wiki 기사 간의 하이퍼링크를 추출합니다.

3가지 세그먼트 샘플링을 (33%, 33%, 33%) 로 균일하게 생성합니다.

Implementation.

BERTtiny(4.4M)

무작위 가중치 초기화

AdamW optimizer

(β1, β2) = (0.9, 0.98)

5000 steps - learning rate warm up 후 선형 감쇠

512 tokens

2048 sequences

5e-3 learning rate

10000 steps

0.01 weight decay

BERTbase(110M)

BERTbase 체크포인트로 초기화

3e-4 learning rate

40000 steps

나머지 tiny와 동일

BERTlarge(340M)

2e-4 learning rate

나머지 base와 동일

Results.

MRQA 데이터 세트에 대한 성능(F1 점수)을 보여줍니다

riviaQA(+6%) 및 SearchQA(+8%)와 같은 여러 문서로 추론이 필요한 QA 데이터 세트에서 눈에 띄게 큰 이득을 얻습니다

LinkBERT는 성공하지만 BERT는 실패하는 QA 사례

질문에 답하려면 첫 번째 문서에서 "Roden Brothers가 Birks Group에 인수되었습니다"를 식별한 다음 두 번째 문서에서 "Birks Group의 본사가 몬트리올에 있습니다"라는 2단계 추론이 필요합니다.

Bert는 단순히 근처의 Toronto를 예측했고 LinkBERT는 의도한 대로 Montreal을 잘 예측했습니다.

GLUE.

혼란스러운 데이터가 포함될 때

BERT에 비해 LinkBERT가 낮은 점수 하락을 보여줬습니다.

Few-shot QA performance (F1)

MRQA 데이터 세트에 대해 10%만 fine-tuning에 사용

4.3

DRP 태스크의 효과

Conclusion

실제로 하이퍼링크 및 인용과 같은 문서 링크는 어디에나 있으며 우리 인간도 항상 이를 사용하여 새로운 지식을 배우고 발견합니다. 사전 훈련에서 이러한 multi-hop 지식을 배우는 것은 질문 답변 및 지식 발견을 포함한 다양한 응용에 중요할 수 있습니다.

LinkBERT는 광범위한 다운스트림 작업에서 이전 BERT 모델보다 성능이 뛰어납니다. multi-hop 추론, 다중 문서 이해 및 QA에 대한 성능 향상이 특히 크며 LinkBERT가 문서 링크를 통해 두드러진 지식을 효과적으로 내부화한다는 것을 암시합니다.

이 결과는 LinkBERT가 다양한 지식 집약적 태스크에 적용할 수 있는 강력한 사전 훈련된 언어 모델이 될 수 있음을 시사합니다.