Introduction
본 논문에서는 image에서의 novel objects에 대한 recognition 및 localization을 수행하는 few-shot object detection task를 논합니다. 기존 연구의 경우, classification 및 location의 fine tuning을 위해 region proposals, anchors, window centers 등의 region 기반의 meta-learning을 수행합니다. 그러나 이러한 방법들은 initial region proposals에 의존도가 매우 크며 더욱이 trainset이 적은 few-shot 환경에서 정확도를 보증하기 어렵습니다.
본 논문의 Contributions는 다음 3가지와 같습니다.
- region-wise prediction없이 object localization 및 classification에 대한 image-level 메타 학습을 단일 모듈로 통합하는 새로운 few-shot object detection 프레임 워크인 Meta-DETR을 제안합니다.
- category-specific representations에 대한 의존을 피하기 위해 high-level 및 low-level sementics를 align하여 메타 학습의 generalization 능력을 향상시키는 simple한 SAM(Semantic Alignment Mechanism)을 설계합니다.
- 실험을 통해 본 논문의 방법론이 few-shot object detection 분야에서 SOTA를 달성함을 보입니다.
Proposed Method
Problem Definition
- 서로 교집합이 없는 2개의 카테고리 세트 ( and )에 대해 few-shot object detector를 이용하여 두 세트의 모든 objects의 detection을 목표로 함
- 학습은 abundant annotated 와 very few annotated 데이터셋을 활용
- K-shot object detection task에서는 novel 데이터셋에 각 카테고리 별로 정확히 K개의 annotated object instances가 존재함
Meta-DETR
Revisiting DETR Frameworks
- Faster R-CNN과 같은 object detectors는 많은 heuristic이 필요하며 fully end-to-end 기법이 아닙니다.
- 근래에 이러한 heuristic 디자인을 없애고 end-to-end detection framework인 DETR이 등장했습니다.
- Meta-DETR은 DETR framwork의 확장 버전입니다.
- 이와 같은 구조를 통해 few-shot object detection이 region-wise prediction에서 잘 동작하지 않는 것과 같은 제약을 해결합니다.
Network Description
- Summary
- image level에서 localization 및 classification을 통합하는 meta-leaning을 위한 Meta-DETR은 개념적으로 simple 합니다.
- QEB(Query Encoding Branch), SEB(Support Encoding Branch), DB(Decoding Branch)
- instance annotation이 있는 몇개의 Support Images와 Query Image가 주어졌을 때, QEB는 Query features, SEB는 Category Codes로 각각 encode 합니다.
- 그 이후, DB는 query feature 및 category codes를 input으로 받아, support categories에 대응하는 Detection results를 예측합니다.
- support images에 따라 동적으로 target categories가 달라지기 때문에 Meta-DETR은 category-agnostic meta-level knowledge를 추출할 수 있습니다. 그리고 이는 novel categories에 쉽게 적용이 가능합니다.
- Details
- Query Encoding Branch (QEB)
- QEB는 residual connection을 제외하면 Deformable DETR를 그대로 따라합니다.
- feature extractor와 transformer encoder로 구성됩니다.
- query image가 주어졌을때, ResNet과 같은 feature extractor는 feature maps를 생성하고, channel dimension이 하위 modules와 호환 가능하도록 1 x 1 convolution을 수행합니다.
- transformer는 sequence 형태의 input을 기대하기 때문에 feature maps에 positional encoding을 수행한 다음, feature map의 spatial dimension을 단일 dimension으로 만들어서 query features를 생성하기 위해 transformer encoder에 전달합니다.
- Support Encoding Branch (SEB)
- SEB는 Siamese Networks와 마찬가지로 모든 learnable parameters를 QEB와 share 합니다.
- QEB가 image-level information을 query features에 보존하는것과 달리, SEB는 support images의 특정 object instances와 연관있는 category codes 추출을 목표로 합니다.
- 이때, support images에서 관계없는(irrelevant) 정보를 제거하는 Category Code Extractor(CCE)를 제안합니다.
- 1) transformer encoder로부터 출력된 결과로부터 features' spatial dimension을 다시 복원합니다.
- 2) support object instances를 RoIAlign을 이용하여 locating 시킵니다.
- 3) sigmoid function을 이용한 global average pooling을 적용합니다.
- 단일 category에 대한 여러 support images가 존재할 경우, 모든 category codes의 average를 최종으로 사용합니다.
- Decoding Branch (DB)
- DB는 QEB 및 SEB의 outputs를 받아, object detection results를 출력합니다.
- target categories는 category codes에 따라 동적으로 결정됩니다.
- 즉, query features와 category를 category-specific features로 변경합니다.
- Aggregator의 구조는 previous work를 참조하였습니다.
- 이후, category-specific features 및 고정 개수의 object queries를 transformer decoder에 통과시켜, 각 category에 해당하는 detection results를 출력합니다.
- DB는 특정한 category objects에 의존하지 않는 category-agnostic 성질을 가집니다.
- Semantic Alignment Mechanism (SAM)
- 해당 기능의 motivation은 특정 category에 집중하는 것 대신, 다양한 categories에 일반화 가능한 meta-level knowledge를 획득하는데에 있습니다.
- deeper networks를 사용할 경우, meta-learning이라 할지라도 여전히 category-specific semantics에 의존하는 경향을 보이며 이는 poor generalization으로 귀결됩니다.
- 따라서 대부분의 연구에서는 ResNet-12 및 ResNet-18과 같은 shallow networks를 사용합니다.
- 이러한 현상을 완화하기 위해, SAM은 transformer encoder를 우회하기 위한 shortcut connection을 만들어, encoder로부터의 fearture semantics가 input feature semantics와 align하도록 self-regularization을 수행합니다.
- bottom layers의 features는 colors, shapes와 같은 더 나은 generalization를 갖는 반면, top layers's features는 그렇지 못합니다.
- 본래 ResNet에서 사용된 residual connections는 gradient vanishing issue를 해결하기 위한 목적이지만, Meta-DETR의 경우 transformer building blocks가 이미 이러한 문제를 해결하고 있기 때문에 사용 용도가 서로 다릅니다.
Training Objective
Detection Target Generation
- detection targets는 다음과 같이 정의합니다.
- 다음은 filter irrelevant object annotations를 위한 공식입니다.
Loss Function
- predictions과 target 사이의 이분 매칭(bipartite matching)을 계산하는 matching loss를 사용합니다.
- matching은 classification과 localization을 동시에 고려해야하기 때문에, matching loss는 다음과 같습니다.
- classification loss는 sigmoid focal loss 및 l1 loss의 linear combination
- box loss는 GIoU Loss
- 앞서 구해진 optimal assignment를 기반으로 다음 loss function을 활용해 network를 optimize 합니다.
- 해당 loss는 transformer decoder의 각 layer에 적용됩니다.
- 추가적으로, SEB로부터 생성된 category codes를 classify하는 cross-entropy loss가 적용되었습니다.
Training and Inference Scheme
Training procedure는 다음 두가지 stages로 구성됩니다.
- base training stage
- 각 category에 대해 풍부한 training sample()로 학습하는 단계
- few-shot fine-tuning stage
- base 및 제한된 training samples를 가진 novel categories 모두에서 학습하는 단계
- 각 episode는 하나의 query image와 10개의 서로 다른 target categories를 가진 support images로 구성
- target categories는 positive와 negative를 모두 포함하며, support images는 학습 데이터에서 randomly sampled
- inference 전에 먼저 SEB를 사용하여 모든 categories에 대한 category codes를 추출합니다.
- category codes를 획득한 이후에는 SEB는 detached 할 수 있습니다.
Experiment
- Pascal VOC 에서의 few-shot detection performance test
- training sample이 극단적으로 적은 경우만을 제외하면 기존 방법론보다 월등한 성능을 보입니다.
- 저자는 학습 데이터가 적은 경우, Meta-DETR의 large search space를 갖는 image-level prediction이 overfitting 되었기 때문에 성능이 저조한 것으로 추측합니다.
- Base dataset에서의 performance test
- TFA는 conventional detectors 처럼 fine-tuning을 했기에 Base set에서 월등한 성능을 보였지만, 그만큼 novel categories에서 generalizing에 제약을 가집니다.
- MS COCO 에서의 few-shot detection performance test
- MS COCO는 매우 복잡하고 large scale variation을 가졌기에 훨씬 challenging 합니다.
- 그럼에도 상대적으로 Meta-DETR은 여전히 우수한 성능을 보입니다.
Conclusions
Synthetic generation이 어려운 handwriting document의 경우, 본 논문의 방법을 적용하여 적은 개수의 real trainset 만으로 모델을 배포할 수 있는 가능성을 테스트 해볼 수 있을 것 같습니다.
Share article