Meta-DETR: Few-Shot Object Detection via Unified Image-Level Meta-Learning

Oct 29, 2021

Meta-DETR: Few-Shot Object Detection via Unified Image-Level Meta-Learning

Contents

Introduction Proposed Method Problem Definition Meta-DETR Training Objective Experiment Conclusions

Introduction

본 논문에서는 image에서의 novel objects에 대한 recognition 및 localization을 수행하는 few-shot object detection task를 논합니다. 기존 연구의 경우, classification 및 location의 fine tuning을 위해 region proposals, anchors, window centers 등의 region 기반의 meta-learning을 수행합니다. 그러나 이러한 방법들은 initial region proposals에 의존도가 매우 크며 더욱이 trainset이 적은 few-shot 환경에서 정확도를 보증하기 어렵습니다.

본 논문의 Contributions는 다음 3가지와 같습니다.

region-wise prediction없이 object localization 및 classification에 대한 image-level 메타 학습을 단일 모듈로 통합하는 새로운 few-shot object detection 프레임 워크인 Meta-DETR을 제안합니다.

category-specific representations에 대한 의존을 피하기 위해 high-level 및 low-level sementics를 align하여 메타 학습의 generalization 능력을 향상시키는 simple한 SAM(Semantic Alignment Mechanism)을 설계합니다.

실험을 통해 본 논문의 방법론이 few-shot object detection 분야에서 SOTA를 달성함을 보입니다.

Proposed Method

Problem Definition

서로 교집합이 없는 2개의 카테고리 세트 ( and )에 대해 few-shot object detector를 이용하여 두 세트의 모든 objects의 detection을 목표로 함

학습은 abundant annotated 와 very few annotated 데이터셋을 활용

K-shot object detection task에서는 novel 데이터셋에 각 카테고리 별로 정확히 K개의 annotated object instances가 존재함

Meta-DETR

Revisiting DETR Frameworks

Faster R-CNN과 같은 object detectors는 많은 heuristic이 필요하며 fully end-to-end 기법이 아닙니다.

근래에 이러한 heuristic 디자인을 없애고 end-to-end detection framework인 DETR이 등장했습니다.

Meta-DETR은 DETR framwork의 확장 버전입니다.

이와 같은 구조를 통해 few-shot object detection이 region-wise prediction에서 잘 동작하지 않는 것과 같은 제약을 해결합니다.

Network Description

Summary

image level에서 localization 및 classification을 통합하는 meta-leaning을 위한 Meta-DETR은 개념적으로 simple 합니다.
QEB(Query Encoding Branch), SEB(Support Encoding Branch), DB(Decoding Branch)
instance annotation이 있는 몇개의 Support Images와 Query Image가 주어졌을 때, QEB는 Query features, SEB는 Category Codes로 각각 encode 합니다.
그 이후, DB는 query feature 및 category codes를 input으로 받아, support categories에 대응하는 Detection results를 예측합니다.
support images에 따라 동적으로 target categories가 달라지기 때문에 Meta-DETR은 category-agnostic meta-level knowledge를 추출할 수 있습니다. 그리고 이는 novel categories에 쉽게 적용이 가능합니다.

Details

Query Encoding Branch (QEB)

QEB는 residual connection을 제외하면 Deformable DETR를 그대로 따라합니다.
feature extractor와 transformer encoder로 구성됩니다.
query image가 주어졌을때, ResNet과 같은 feature extractor는 feature maps를 생성하고, channel dimension이 하위 modules와 호환 가능하도록 1 x 1 convolution을 수행합니다.
transformer는 sequence 형태의 input을 기대하기 때문에 feature maps에 positional encoding을 수행한 다음, feature map의 spatial dimension을 단일 dimension으로 만들어서 query features를 생성하기 위해 transformer encoder에 전달합니다.

Support Encoding Branch (SEB)

SEB는 Siamese Networks와 마찬가지로 모든 learnable parameters를 QEB와 share 합니다.
QEB가 image-level information을 query features에 보존하는것과 달리, SEB는 support images의 특정 object instances와 연관있는 category codes 추출을 목표로 합니다.
이때, support images에서 관계없는(irrelevant) 정보를 제거하는 Category Code Extractor(CCE)를 제안합니다.

1) transformer encoder로부터 출력된 결과로부터 features' spatial dimension을 다시 복원합니다.
2) support object instances를 RoIAlign을 이용하여 locating 시킵니다.
3) sigmoid function을 이용한 global average pooling을 적용합니다.
단일 category에 대한 여러 support images가 존재할 경우, 모든 category codes의 average를 최종으로 사용합니다.

Decoding Branch (DB)

DB는 QEB 및 SEB의 outputs를 받아, object detection results를 출력합니다.
target categories는 category codes에 따라 동적으로 결정됩니다.

즉, query features와 category를 category-specific features로 변경합니다.
Aggregator의 구조는 previous work를 참조하였습니다.

이후, category-specific features 및 고정 개수의 object queries를 transformer decoder에 통과시켜, 각 category에 해당하는 detection results를 출력합니다.
DB는 특정한 category objects에 의존하지 않는 category-agnostic 성질을 가집니다.

Semantic Alignment Mechanism (SAM)

해당 기능의 motivation은 특정 category에 집중하는 것 대신, 다양한 categories에 일반화 가능한 meta-level knowledge를 획득하는데에 있습니다.
deeper networks를 사용할 경우, meta-learning이라 할지라도 여전히 category-specific semantics에 의존하는 경향을 보이며 이는 poor generalization으로 귀결됩니다.
따라서 대부분의 연구에서는 ResNet-12 및 ResNet-18과 같은 shallow networks를 사용합니다.
이러한 현상을 완화하기 위해, SAM은 transformer encoder를 우회하기 위한 shortcut connection을 만들어, encoder로부터의 fearture semantics가 input feature semantics와 align하도록 self-regularization을 수행합니다.

bottom layers의 features는 colors, shapes와 같은 더 나은 generalization를 갖는 반면, top layers's features는 그렇지 못합니다.
본래 ResNet에서 사용된 residual connections는 gradient vanishing issue를 해결하기 위한 목적이지만, Meta-DETR의 경우 transformer building blocks가 이미 이러한 문제를 해결하고 있기 때문에 사용 용도가 서로 다릅니다.

Training Objective

Detection Target Generation

detection targets는 다음과 같이 정의합니다.

다음은 filter irrelevant object annotations를 위한 공식입니다.

Loss Function

predictions과 target 사이의 이분 매칭(bipartite matching)을 계산하는 matching loss를 사용합니다.

matching은 classification과 localization을 동시에 고려해야하기 때문에, matching loss는 다음과 같습니다.

classification loss는 sigmoid focal loss 및 l1 loss의 linear combination
box loss는 GIoU Loss

앞서 구해진 optimal assignment를 기반으로 다음 loss function을 활용해 network를 optimize 합니다.

해당 loss는 transformer decoder의 각 layer에 적용됩니다.
추가적으로, SEB로부터 생성된 category codes를 classify하는 cross-entropy loss가 적용되었습니다.

Training and Inference Scheme

Training procedure는 다음 두가지 stages로 구성됩니다.

base training stage

각 category에 대해 풍부한 training sample()로 학습하는 단계

few-shot fine-tuning stage

base 및 제한된 training samples를 가진 novel categories 모두에서 학습하는 단계
각 episode는 하나의 query image와 10개의 서로 다른 target categories를 가진 support images로 구성
target categories는 positive와 negative를 모두 포함하며, support images는 학습 데이터에서 randomly sampled