Meta-DETR: Few-Shot Object Detection via Unified Image-Level Meta-Learning

Inc Lomin's avatar
Oct 29, 2021
Meta-DETR: Few-Shot Object Detection via Unified Image-Level Meta-Learning

Introduction

 
notion image
본 논문에서는 image에서의 novel objects에 대한 recognition 및 localization을 수행하는 few-shot object detection task를 논합니다. 기존 연구의 경우, classification 및 location의 fine tuning을 위해 region proposals, anchors, window centers 등의 region 기반의 meta-learning을 수행합니다. 그러나 이러한 방법들은 initial region proposals에 의존도가 매우 크며 더욱이 trainset이 적은 few-shot 환경에서 정확도를 보증하기 어렵습니다.
 
본 논문의 Contributions는 다음 3가지와 같습니다.
  • region-wise prediction없이 object localization 및 classification에 대한 image-level 메타 학습을 단일 모듈로 통합하는 새로운 few-shot object detection 프레임 워크인 Meta-DETR을 제안합니다.
  • category-specific representations에 대한 의존을 피하기 위해 high-level 및 low-level sementics를 align하여 메타 학습의 generalization 능력을 향상시키는 simple한 SAM(Semantic Alignment Mechanism)을 설계합니다.
  • 실험을 통해 본 논문의 방법론이 few-shot object detection 분야에서 SOTA를 달성함을 보입니다.
 

Proposed Method

 
notion image
 

Problem Definition

 
  • 서로 교집합이 없는 2개의 카테고리 세트 ( and )에 대해 few-shot object detector를 이용하여 두 세트의 모든 objects의 detection을 목표로 함
  • 학습은 abundant annotated 와 very few annotated 데이터셋을 활용
  • K-shot object detection task에서는 novel 데이터셋에 각 카테고리 별로 정확히 K개의 annotated object instances가 존재함
 

Meta-DETR

Revisiting DETR Frameworks

 
  • Faster R-CNN과 같은 object detectors는 많은 heuristic이 필요하며 fully end-to-end 기법이 아닙니다.
  • 근래에 이러한 heuristic 디자인을 없애고 end-to-end detection framework인 DETR이 등장했습니다.
  • Meta-DETR은 DETR framwork의 확장 버전입니다.
  • 이와 같은 구조를 통해 few-shot object detection이 region-wise prediction에서 잘 동작하지 않는 것과 같은 제약을 해결합니다.
 

Network Description

 
  • Summary
    • image level에서 localization 및 classification을 통합하는 meta-leaning을 위한 Meta-DETR은 개념적으로 simple 합니다.
    • QEB(Query Encoding Branch), SEB(Support Encoding Branch), DB(Decoding Branch)
    • instance annotation이 있는 몇개의 Support Images와 Query Image가 주어졌을 때, QEB는 Query features, SEB는 Category Codes로 각각 encode 합니다.
    • 그 이후, DB는 query feature 및 category codes를 input으로 받아, support categories에 대응하는 Detection results를 예측합니다.
    • support images에 따라 동적으로 target categories가 달라지기 때문에 Meta-DETR은 category-agnostic meta-level knowledge를 추출할 수 있습니다. 그리고 이는 novel categories에 쉽게 적용이 가능합니다.
  • Details
    • Query Encoding Branch (QEB)
      • QEB는 residual connection을 제외하면 Deformable DETR를 그대로 따라합니다.
      • feature extractor와 transformer encoder로 구성됩니다.
      • query image가 주어졌을때, ResNet과 같은 feature extractor는 feature maps를 생성하고, channel dimension이 하위 modules와 호환 가능하도록 1 x 1 convolution을 수행합니다.
      • transformer는 sequence 형태의 input을 기대하기 때문에 feature maps에 positional encoding을 수행한 다음, feature map의 spatial dimension을 단일 dimension으로 만들어서 query features를 생성하기 위해 transformer encoder에 전달합니다.
    • Support Encoding Branch (SEB)
      • SEB는 Siamese Networks와 마찬가지로 모든 learnable parameters를 QEB와 share 합니다.
      • QEB가 image-level information을 query features에 보존하는것과 달리, SEB는 support images의 특정 object instances와 연관있는 category codes 추출을 목표로 합니다.
      • 이때, support images에서 관계없는(irrelevant) 정보를 제거하는 Category Code Extractor(CCE)를 제안합니다.
        • 1) transformer encoder로부터 출력된 결과로부터 features' spatial dimension을 다시 복원합니다.
        • 2) support object instances를 RoIAlign을 이용하여 locating 시킵니다.
        • 3) sigmoid function을 이용한 global average pooling을 적용합니다.
        • 단일 category에 대한 여러 support images가 존재할 경우, 모든 category codes의 average를 최종으로 사용합니다.
    • Decoding Branch (DB)
      • DB는 QEB 및 SEB의 outputs를 받아, object detection results를 출력합니다.
      • target categories는 category codes에 따라 동적으로 결정됩니다.
        • 즉, query features와 category를 category-specific features로 변경합니다.
        • Aggregator의 구조는 previous work를 참조하였습니다.
      • 이후, category-specific features 및 고정 개수의 object queries를 transformer decoder에 통과시켜, 각 category에 해당하는 detection results를 출력합니다.
      • DB는 특정한 category objects에 의존하지 않는 category-agnostic 성질을 가집니다.
      •  
    • Semantic Alignment Mechanism (SAM)
      • notion image
      • 해당 기능의 motivation은 특정 category에 집중하는 것 대신, 다양한 categories에 일반화 가능한 meta-level knowledge를 획득하는데에 있습니다.
      • deeper networks를 사용할 경우, meta-learning이라 할지라도 여전히 category-specific semantics에 의존하는 경향을 보이며 이는 poor generalization으로 귀결됩니다.
      • 따라서 대부분의 연구에서는 ResNet-12 및 ResNet-18과 같은 shallow networks를 사용합니다.
      • 이러한 현상을 완화하기 위해, SAM은 transformer encoder를 우회하기 위한 shortcut connection을 만들어, encoder로부터의 fearture semantics가 input feature semantics와 align하도록 self-regularization을 수행합니다.
        • bottom layers의 features는 colors, shapes와 같은 더 나은 generalization를 갖는 반면, top layers's features는 그렇지 못합니다.
        • 본래 ResNet에서 사용된 residual connections는 gradient vanishing issue를 해결하기 위한 목적이지만, Meta-DETR의 경우 transformer building blocks가 이미 이러한 문제를 해결하고 있기 때문에 사용 용도가 서로 다릅니다.
 

Training Objective

Detection Target Generation

 
  • detection targets는 다음과 같이 정의합니다.
 
notion image
 
  • 다음은 filter irrelevant object annotations를 위한 공식입니다.
notion image

Loss Function

 
  • predictions과 target 사이의 이분 매칭(bipartite matching)을 계산하는 matching loss를 사용합니다.
notion image
  • matching은 classification과 localization을 동시에 고려해야하기 때문에, matching loss는 다음과 같습니다.
    • classification loss는 sigmoid focal loss 및 l1 loss의 linear combination
    • box loss는 GIoU Loss
 
notion image
  • 앞서 구해진 optimal assignment를 기반으로 다음 loss function을 활용해 network를 optimize 합니다.
    • 해당 loss는 transformer decoder의 각 layer에 적용됩니다.
    • 추가적으로, SEB로부터 생성된 category codes를 classify하는 cross-entropy loss가 적용되었습니다.
notion image

Training and Inference Scheme

 
Training procedure는 다음 두가지 stages로 구성됩니다.
 
  • base training stage
    • 각 category에 대해 풍부한 training sample()로 학습하는 단계
  • few-shot fine-tuning stage
    • base 및 제한된 training samples를 가진 novel categories 모두에서 학습하는 단계
    • 각 episode는 하나의 query image와 10개의 서로 다른 target categories를 가진 support images로 구성
    • target categories는 positive와 negative를 모두 포함하며, support images는 학습 데이터에서 randomly sampled
  • inference 전에 먼저 SEB를 사용하여 모든 categories에 대한 category codes를 추출합니다.
    • category codes를 획득한 이후에는 SEB는 detached 할 수 있습니다.
 

Experiment

 
notion image
  • Pascal VOC 에서의 few-shot detection performance test
  • training sample이 극단적으로 적은 경우만을 제외하면 기존 방법론보다 월등한 성능을 보입니다.
    • 저자는 학습 데이터가 적은 경우, Meta-DETR의 large search space를 갖는 image-level prediction이 overfitting 되었기 때문에 성능이 저조한 것으로 추측합니다.
    •  
 
notion image
  • Base dataset에서의 performance test
    • TFA는 conventional detectors 처럼 fine-tuning을 했기에 Base set에서 월등한 성능을 보였지만, 그만큼 novel categories에서 generalizing에 제약을 가집니다.
 
notion image
 
  • MS COCO 에서의 few-shot detection performance test
    • MS COCO는 매우 복잡하고 large scale variation을 가졌기에 훨씬 challenging 합니다.
    • 그럼에도 상대적으로 Meta-DETR은 여전히 우수한 성능을 보입니다.
 
notion image
 
notion image
 
notion image

Conclusions

 
Synthetic generation이 어려운 handwriting document의 경우, 본 논문의 방법을 적용하여 적은 개수의 real trainset 만으로 모델을 배포할 수 있는 가능성을 테스트 해볼 수 있을 것 같습니다.
 
 
Share article