Cross-Domain Document Object Detection: Benchmark Suite and Method

Oct 29, 2021

Cross-Domain Document Object Detection: Benchmark Suite and Method

Contents

Introduction Benchmark Suite Proposed Method Experiment Conclusions

Introduction

DOD (Document Object Detection)는 문서 페이지 이미지를 구조적 및 논리적 단위 (예 : 그림, 표, 단락)로 자동 분해하는 작업입니다. 주요 과제는 문서 유형 (예 : 메뉴, 과학 기사), 레이아웃 (예 : 세로 대 가로 또는 단일 / 다중 열) 및 서면 언어와 같은 많은 요소가 문서의 모양에 영향을 미친다는 것입니다. 모든 종류의 문서를 처리 할 수있는 단일 모델을 배우는 것이 바람직하지만 이러한 포괄적인 데이터 세트를 구성하는 것은 불가능에 가깝습니다. 모든 종류의 문서 수집에 레이블이 지정된 데이터를 사용할 수 없기 때문에 cross-domain DOD를 사용하는 것이 바람직합니다. Cross-domain DOD에서는 source 도메인의 레이블이 지정된 데이터와 target 도메인의 레이블이 없는 데이터를 활용하여 모델을 훈련시킵니다.

이 논문의 contributions는 세 가지입니다.

• Cross-domain DOD 모델 교육 및 평가를위한 벤치 마크 제품군을 제안합니다. 이 문제를 가장 먼저 연구한 것이기 때문에 해당 벤치 마크가 이 분야의 첫 번째 문제입니다.

• 도메인 시프트 문제에 접근하기 위해 3 개의 새로운 모듈을 소개하는 새로운 도메인 간 DOD 모델을 제안합니다. 세 개의 모듈은 서로 보완되며 일반적인 이미지 관점과 특정 문서 이미지 관점에서 도메인을 정렬합니다.

•이 모델은 도메인 이동 문제를 효과적으로 완화하고 벤치 마크 suite 기준, 성능을 크게 향상시킵니다.

Benchmark Suite

최근에 [Publaynet: largest dataset ever for document layout analysis]는 문서 객체 탐지를 위한 대규모 데이터 세트를 발표했습니다. 의학 저널 기사에서 추출한 36만 페이지 이상의 이미지에서 350 만 개 이상의 개체 인스턴스에 대한 주석이 포함되어 있습니다. 주석이 달린 객체는 text, title, list, table 및 figure의 5 가지 클래스로 구성됩니다. 주석은 게시자가 만든 XML 표현과 PDF 내용을 일치시켜 자동으로 획득하였습니다. 본 논문에서는 이 데이터 세트를 활용하고 이 연구에서 PubMed라고하는 서브셋을 무작위로 선택하여 교차 도메인 실험을 수행합니다. PubMed에는 12871 개의 이미지와 257830 경계 상자 주석이 포함되어 있습니다. 데이터 세트를 학습용 9653 이미지와 테스트 용 3218 이미지로 무작위로 나눕니다. "list" 클래스의 정의는 번호가 매겨진 항목이나 글 머리 기호 항목이 모두 포함 된 단일 지역입니다. 이 정의는 벤치 마크 suite 내의 다른 데이터 세트의 정의와 일치하지 않습니다. 따라서 "list"의 주석을 전처리하고 목록 글 머리 기호 또는 숫자를 감지하여 기본 ground truth box를 모든 개별 항목에 대해 작은 상자로 나눕니다.

벤치 마크 제품군에 포함 된 또 다른 데이터 집합은 synthesized Chinese document dataset인 Chn입니다. 중국어 위키 백과 페이지를 크롤링한뒤, tool을 사용하여 문서 페이지에 HTML 내용을 정렬하는 레이아웃을 임의로 정의하고 해당 내용의 스타일을 선택하여 각 Wikipedia HTML 페이지를 문서로 변환합니다. 저품질 샘플을 필터링 한 후 PubMed와 동일한 5 개의 클래스에 대해 203456 경계 상자 주석이있는 8005 페이지 이미지를 얻습니다. 훈련 및 테스트를 위해 5000 및 3005 페이지 이미지를 무작위로 선택합니다. 그림 1은 데이터 세트의 일부 샘플을 보여줍니다.

위의 두 데이터 세트의 경우 이미지 및 해당 경계 상자 주석 외에 페이지 이미지를 생성하는 데 사용되는 original PDF 파일도 제공합니다. PDF 페이지를 이미지로 변환 할 때 대부분의 메타 데이터가 손실됩니다. 따라서 벤치 마크 suite에 소스 PDF 파일을 제공하여 향후 연구에서 이러한 메타 데이터를 활용하고 탐지 작업 또는 기타 관련 작업을 진행할 수 있도록 합니다. 또한 PDF 페이지와 관련된 PDF 렌더링 레이어도 제공합니다. PDF 페이지는 실제로 텍스트 도면, 벡터 도면 및 래스터 도면이 혼합되어 렌더링됩니다. 동일한 유형의 도면은 동일한 렌더링 레이어에 있으며 PDF 파일에서 레이어를 추출 할 수 있습니다. 이러한 렌더링 레이어는 PDF 페이지의 구조적 추상화를 제공하므로 탐지 작업에도 도움이됩니다.

또한 성능 평가를 위해 사람이 주석 처리 한 데이터 세트를 사용합니다. 데이터 집합에는 legal reports에 대한 19355 페이지 이미지와 257830 경계 상자 주석이 포함됩니다. 무작위로 훈련을 위해 9684 이미지를 선택하고 테스트를 위해 나머지 9671을 선택합니다. 이 데이터 세트에는 다른 두 데이터 세트와 동일한 5 개의 클래스가 주석 처리되어 있으며 이 작업에서 렌더링 레이어도 활용합니다.

Proposed Method

Feature Pyramid Networks

FPN은 convolutional neural networks의 피라미드 피처 계층 구조를 이용하고 모든 레이어에 대한 high-level semantics 피처 피라미드를 구축합니다. ResNet-101의 layer1, layer2, layer3 및 layer4 출력에서 피처 계층 구조 {C1, C2, C3, C4}를 사용하여 FPN은 coarsest 피처 맵에서 반복되고 spatial resolution을 위해 2배로 업 샘플링합니다. 채널 단위를 줄이기 위해 1x1 컨벌루션을 거친 이전 맵과 병합합니다. 그런 다음 병합 된 feature map은 3x3 컨벌루션으로 처리되어 최종 feature map을 생성합니다. 이 반복 프로세스는 피처 피라미드 {P1, P2, P3, P4}를 출력합니다.

여기서 conv1, conv3 및 up 샘플은 각각 1x1, 3x3 및 업 샘플링 작업입니다. P5는 C4에서 1x1 컨벌루션, 즉 P5 = conv1 (C4)의 결과입니다. Region Proposal Network(RPN)에 의해 모든 특징 피라미드 레이어 {P1, P2, P3, P4}에서 region proposal이 추출됩니다. 획득된 region proposal은 각각의 제안에 대한 feature vector를 얻기 위해 feature extraction module로 전달됩니다. 소스 데이터 셋의 이미지에 대해 bounding box를 기반으로 detection loss을 계산합니다.

여기서 x^s와 y^s는 각각 이미지와 ground truth annotation입니다. 첫 번째 항은 bounding box regression loss이고 두 번째 항은 classification loss입니다.

Feature Pyramid Alignment

앞에서 볼 수 있듯이 피라미드의 feature map은 high- and low-level features가 혼합되어 있습니다. 따라서 다른 domain에서 피처 피라미드를 aligning하면 low- and high-level semantics가 함께 aligning됩니다. 이는 low-level features 또는 high-level features에서만, 또는 둘 다 개별적으로 정렬이 수행되는 기존의 방법에 비해 유리합니다. 또한 FPN을 기반으로 함으로써 다양한 크기의 물체를 감지하는 강도를 계승합니다. 이는 문서 이미지에서 물체의 크기가 크게 다를 수 있기 때문에 감지하는 데 중요합니다. 예를 들어, "text" 개체는 거의 전체 페이지 (예 : 긴 단락)를 차지할 수있는 반면 다른 텍스트는 몇 자나 숫자 (예 : 페이지 번호 또는 짧은 섹션 머리글)만큼 작을 수 있습니다.

구체적으로, FPA는 {P1, P2, P3, P4}에 대응하는 4개의 이진 도메인 classifiers {D1, D2, D3, D4}를 포함한다. 이러한 분류기는 feature map에서 픽셀의 도메인 레이블(source 또는 target)을 예측합니다. 도메인 classifier가 픽셀이 source인지 target인지를 알 수 없으면 FPN이 도메인에 무관하게되도록 classifiers와 FPN을 적대적으로 훈련합니다. 이를 위해 {P1, P2, P3, P4}에 대한 기울기를 반전시켜 각각의 개별 back-propagation에서 최소-최대 문제를 최적화합니다. loss function은 다음과 같습니다.

여기서 W^s, H^s, W^t 및 H^t는 각각 source 및 target feature maps의 너비와 높이입니다. P^si 및 P^ti는 각각 source 및 target 피라미드의 i번째 층이다.

Region Alignment

위의 FPA 모듈은 기능 맵의 픽셀 단위로 dense alignment를 수행하여 foreground 및 background 영역에 동일한 처리를 합니다. 그러나 detection 작업에 의미가 있는 foreground regions에 더 관심이 있습니다. Region proposals는 전경 지역일 가능성이 더 높으므로 추가 alignment를 수행합니다.

서로 다른 도메인의 이미지에 대한 "weak global alignment"은 "hard-to-align"이미지에 초점을 맞추기 때문에 도메인 간 detection 성능이 향상됩니다. Region proposal domain classifier에 focal loss를 포함시켜 정렬하기 어려운 proposal에 더 집중할 수 있습니다. 과거 연구에서는 이 전략을 이미지 수준에 적용하는 반면, region proposal 수준에서 foreground 영역의 alignment을 강조하기 위해 이 전략을 적용합니다. 이전에도 region proposal alignment가 제안되었지만 모든 region proposal을 동일하게 처리하므로 alignment하기 쉬운 제안이 손실을 지배하여 바람직하지 않은 정렬 결과를 초래할 수 있습니다.

Focal loss가 도입됨에 따라 region alignment 목표는 다음과 같습니다.

여기서 R은 추출된 region proposal의 수입니다. 용어 rsi 및 rti는 각각 소스 및 타겟 이미지로부터 추출 된 i 번째 영역 제안이고; Dr는 이진 도메인 분류기입니다. γ는 정렬하기 어려운 제안에 대한 가중치를 제어합니다. FPA에서와 같이, 제안과 관련하여 기울기를 반전시키고 각 개별 역 전파에서 분류 자와 FPN에 대한 적대적인 훈련을 실행합니다.

Rendering Layer Alignment

PDF 페이지는 세 가지 별도의 레이어(텍스트, 벡터 또는 래스터)로 렌더링되며 각 레이어에는 단일 유형의 컨텐츠로 인한 픽셀이 포함됩니다. 이 레이어는 PDF 페이지 내의 내용에 대한 정보를 제공합니다. 더 중요한 것은 source 및 target 이미지에 모두 사용 가능하고 일관성이 있다는 것입니다. 따라서 도메인 간격을 메우기위한 additional supervision cue로 사용할 수 있습니다. RLA는 렌더링 레이어를 활용하여 각 픽셀이 속한 드로잉 유형을 지정하는 마스크를 각 페이지마다 생성합니다. 그림 3은 이 프로세스를 보여줍니다.

마스크는 페이지 이미지의 분할 맵으로 볼 수 있으며 이미지에서 맵을 예측하는 모델을 학습 할 수 있습니다. 따라서, RLA 모듈은 feature map C4를 입력으로서 취하여 각 픽셀의 drawing types에 대한 possibility map을 출력하는 분할 신경망입니다. 페이지 마스크는 기본 정보로 사용됩니다. 따라서, 렌더링 계층 세그먼트 화 목표는 다음과 같습니다 :

여기서 Wsm, Hsm, Wtm 및 Htm은 각각 source 및 target에 대한 마스크의 너비와 높이입니다. psi, c 및 pti, c는 i 번째 픽셀이 클래스 c 일 확률이다. yi, c는 기본 진리 레이블입니다. C는 클래스 수입니다. 벡터 드로잉 클래스는 일반적으로 너무 얇아서 concrete semantic meaning을 갖지 않기 때문에 신뢰할 수 없습니다. 따라서 백그라운드 클래스에 병합하고 "background", "text"및 "raster"클래스를 유지합니다.

Model Training and Inference

이 모델은 위의 손실 합계를 최소화하여 전체적으로 학습됩니다.

여기서 λ1, λ2 및 λ3은 3 개의 하이퍼 파라미터입니다. 모델 유추의 경우 FPA, RA 및 RLA 모듈을 제거하고 표준 FPN 만 유지합니다. 그런 다음 inference process는 표준 탐지 모델과 동일합니다. 이미지가 모델에 공급되고 detection bounding boxes가 출력됩니다.

Experiment

FPN의 경우 가장 일반적인 방법을 따르고 ResNet-101을 백본으로 사용합니다. 제안된 FPA 모듈에는 4개의 도메인 분류 기는 동일한 구조를 공유하지만 가중치는 공유하지 않습니다. 3개의 convolution layers를 사용, kernel size는 1로 설정되고 패딩 크기는 0입니다. ReLU activation function은 처음 두 convolution layer의 출력에 적용되며 Sigmoid는 마지막 레이어의 출력에 사용됩니다. RA 모듈은 3 개의 FC 계층으로 구성됩니다. ReLU 및 Dropout은 처음 두 FC 레이어의 출력에 적용됩니다. RLA 모듈의 세그먼테이션 네트워크의 경우 DeepLab-V2와 동일한 구조를 사용하고 feature map에서 세그먼테이션 마스크를 예측합니다.

SGD 옵티 마이저와 0.001의 초기 학습 속도로 네트워크를 훈련시킵니다. 모든 실험에서 λ1 = λ2 = 0.1 및 λ3 = 0.01로 설정했습니다. focal loss 파라미터는 γ = 5.0으로 설정된다.

모든 교차 도메인 실험에서 훈련을 위해 소스 및 대상 데이터 세트의 학습 분할을 사용하고 대상 데이터 세트의 테스트 분할을 평가합니다. 훈련 중에는 소스 데이터 세트의 레이블 만 사용할 수 있습니다. 이미지의 짧은면을 600 픽셀로 설정했습니다. 다른 방법을 평가하기 위해 임계 값이 0.5 인 평균 평균 정밀도 (MAP)를보고합니다. PyTorch로 모든 메소드를 구현했습니다.

Ablation Study

제시한 세 가지 모듈의 효과와 영향을 평가하기 위해 Legal 및 PubMed의 adaptation에 대한 albation study를 수행합니다. 그 효과를 평가하기 위해 최신 교차 도메인 객체 감지 모델 SWDA에 첨부하고 결과 성능을 평가합니다.

Comparative Results

Chn, Legal 및 PubMed의 세 가지 데이터 집합간에 도메인 간 평가를 수행합니다. 첫 번째는 중국어 문서 데이터 세트이고 두 번째는 영어 데이터 세트입니다. 먼저 Chn과 Legal 간, Chn과 PubMed 간 언어 간 성능 평가를 수행합니다(Table 3 및 4) Legal 및 PubMed는 다른 영어 문서 범주에 속하므로 도메인간에 도메인 간격이 있습니다. 따라서 이 두 데이터 집합간에 교차 범주 탐지 평가도 수행합니다(Table 5).

Further Analysis

DOD 작업을 위해 제안된 RLA 모듈을 제외하고 FPN + FPA 및 RA 모듈을 natural scene images에도 적용 할 수 있습니다. 앞의 방법에 따라 Cityscape 및 Kitti 데이터 세트에 대한 도메인 간 "차량" 탐지 평가를 수행합니다. Kitti 데이터 세트에는 14999 개의 이미지가 있으며 적응 및 평가를 위해 트레이닝 세트에서 7481 개의 이미지를 선택했습니다. Cityscape 데이터 세트에는 3475 개의 이미지가 있으며 적응 훈련에 2975 개의 이미지를 사용하고 평가에 나머지 500 개의 이미지를 사용합니다.

Figure 4는 Chn 및 PubMed의 일부 감지 결과를 보여줍니다. 대부분의 경우 제안된 방법이 복잡한 페이지를 의미있는 영역으로 성공적으로 분해 할 수 있음을 알 수 있으며, 매우 다양한 크기의 객체에 대해 높은 localization precision와 confident classification scores를 제공합니다. 예를 들어 첫 번째 이미지에서 페이지의 3 분의 2를 차지하는 큰 테이블과 작은 페이지 매김이 완벽하게 감지됩니다. 그러나 제안 된 방법은 문맥 내에서만 semantic meanings를 정확하게 결정할 수있는 모호한 객체에 대해 실수를 저지르는 경향이 있습니다. 예를 들어, 네 번째 (가장 오른쪽) 이미지에는 6 개의 하위 그림으로 구성된 복합 그림이 있습니다. 상황을 고려할 때 개별적으로 객체 인스턴스로 감지하는 것은 오류입니다. 세 번째 이미지에도 비슷한 경우가 나타납니다.

Conclusions

본 논문에서 제시하는 벤치 마크 제품군에는 도메인 간 문서 객체 감지기를 교육하고 평가할 수있는 다양한 유형의 데이터 집합이 포함됩니다. 각 데이터 세트마다 필수 구성 요소, 페이지 이미지 및 경계 상자 주석뿐만 아니라 보조 구성 요소, 원시 PDF 파일 및 PDF 렌더링 레이어도 제공합니다. 제안 된 모델은 3 개의 새로운 도메인 정렬 모듈, 즉 FPA (Feature Pyramid Alignment) 모듈, RA (Region Alignment) 모듈 및 RLA (Rendering Layer Alignment) 모듈을 사용하여 표준 객체 감지 모델을 기반으로합니다. 벤치 마크 제품군에 대한 실험은 제안된 새로운 구성 요소의 효과를 확인하고 제안된 방법이 기준 방법보다 뛰어납니다. 또한 제안 된 방법은 natural scene images에서 도메인 간 객체 감지를 위한 최첨단 방법에 비해 개선되었습니다.