USB: Universal-Scale Object Detection Benchmark

Inc Lomin's avatar
Nov 18, 2021
USB: Universal-Scale Object Detection Benchmark

Introduction

notion image
Object detection 연구는 PASCAL VOC, MS-COCO와 같은 데이터셋 덕분에 많은 발전을 이루어왔습니다. 특히 COCO 데이터셋은 이 연구분야에서 실질적인 표준 벤치마크 역할을 하고 있습니다. 하지만 여기에는 다음과 같은 문제가 있습니다.
  1. 물체의 크기 변화(variation)과 이미지 domain이 제한적임
  1. 딥러닝 모델의 학습과 평가를 위한 프로토콜이 정립되지 않음
  1. Multi-scale object detection 방식에 대한 연구 부족
본 논문에서는 아래와 같은 contribution으로 이러한 문제를 해결하고자 합니다.
  1. 세 개의 데이터셋으로 구성된 Universal-Scale object detection Benchmark(USB) 벤치마크
  1. 공정한 학습과 평가를 위한 USB 프로토콜 제정
  1. Multi-scale object detection 방식의 분석을 통한 UniverseNets 제안
 

Proposed Method

Benchmark Protocols of USB

  1. Principle
    1. 본 논문에서는 1) multi-scale 2) universal-domain object detection 둘 중 하나만을 타겟으로 한 기존 연구와는 달리 둘 다를 달성하고자 합니다. 이를 위해 학습 epoch의 길이와 평가에 사용하는 이미지의 해상도에 제한을 두었습니다.
       
  1. Datasets
    1. 아래의 총 세 개 데이터셋을 사용하였습니다.
      1) COCO
      2) Waymo Open Dataset (WOD)
      3) Manga109-s (M109s)
      이 중 WOD와 M109s는 각각 교통 이미지, 만들어진 이미지 도메인에서 가장 큰 public 데이터셋이며 많은 수의 작은 물체를 포함하고 있습니다.
      notion image
      notion image
      아래 표에서 보는 바와 같이 이 데이터셋의 조합은 기존 연구(UODB)에 비해 훨씬 더 많은 이미지와 박스를 포함합니다. COCO는 가장 표준적인 데이터셋이자 다양한 일상의 사진들을 포함하지만 크기가 큰 물체가 많습니다. WOD는 도로의 이미지들이기 때문에 거리에 따라 크기 다양성이 높습니다. Manga 데이터셋은 자연 이미지가 아니며, 크기 변화가 클 뿐 아니라 매우 겹침이 심하거나 크기에 따라 그림체가 달라져 같은 물체라도 표현 방법이 달라지는 특성이 있습니다.
      notion image
       
  1. Training protocols
    1. 공정한 학습 프로토콜에 따른 비교를 위해 USB 프로토콜을 제안합니다. 동일한 이름의 Universal Serial Bus (USB)가 하위호환성(backward compatibility)를 가지는 것과 유사한 의미로, USB 학습 프로토콜은 프로토콜간의 호환성을 중요하게 생각합니다. 이 벤치마크에 결과를 제출하는 참가자는 더 높은 프로토콜의 결과뿐 아니라 더 낮은 프로토콜의 결과도 함께 제출해야 합니다.
      notion image
      USB 1.0은 가장 일반적인 COCO 학습 방식인 24 epoch을 기준으로 합니다.
      USB 2.0은 ImageNet에 pre-trained인 24-epoch 모델을 scratch부터 학습해서 따라잡을 수 있는 epoch인 73으로 설정되었습니다.
      USB 3.0은 YOLOv4, EfficientDet과 같은 SOTA 모델이 따르는 300 epoch로 설정되었습니다.
      Mask annotation을 사용하는 프로토콜은 버전에 0.5를 더하여 표시하고, 이러한 알고리즘이 mask annotation 없이도 학습 가능한 경우 항상 그 결과도 같이 제출해야 합니다.
      비교를 위해, pre-training 데이터셋은 세 개의 데이터셋에 더하여 ImageNet-1k 데이터셋만 허용합니다. 참가자는 어떻게 pre-training을 수행하고 어떤 조합의 데이터셋으로 학습할지 선택할 수 있습니다.
      Hyper-parameter tuning또한 성능에 많은 영향을 미칩니다. 많은 리소스를 들여 튜닝을 한 결과 또한 공정하지 못하다고 할 수 있으므로, 우리는 최소한의 hyperparameter를 rough하게 튜닝하는 것을 권장합니다. (예: lr={0.1, 0.2, 0.4, 0.8, ...})만약 튜닝을 공격적으로, 또는 알고리즘을 통해 수행한 경우 이를 하지 않은 결과 또한 함께 제출해야 합니다.
       
  1. Evaluation Protocols
    1. notion image
      Universal Serial BUS(USB)가 다양한 기기에 대응하는 여러 폼팩터를 가진 것처럼, USB 평가 프로토콜 또한 여러 디바이스와 어플리케이션에 맞게 다양한 이미지 해상도를 포함합니다.
       
  1. Evaluation Metrics
    1. 평가 방식으로는 COCO 공식 평가 코드를 기본으로 사용합니다. 이를 위해 WOD, M109s 데이터셋에 대한 변환기를 제공합니다.
      COCO-style AP (CAP)는 다음과 같이 계산됩니다.
      notion image
      USB 평가 프로토콜로써, mean COCO-style AP (mCAP)는 다음과 같이 평균으로 계산합니다.
      notion image
       

UniverseNets

USOD에 부합하는 빠르고 높은 성능의 detector를 위하여 UniverseNets를 설계하였습니다. UniverseNets는 효율을 위하여 single-stage로 구성되었습니다. Baseline은 RetinaNet이며 MMDetection 구현을 사용하였습니다. Backbone은 ResNet-50-B를, neck은 FPN을 사용하였고 single-scale training, single-scale testing을 사용하였습니다.
Baseline 위에서 다음 알고리즘/기법을 적용하여 UniverseNets를 만들었습니다.
  • ATSS
  • SEPC without iBN
  • Res2Net-50-v1b
  • Deformable Convolutional Networks (DCN)
  • Multi-scale training / Single-scale testing
여기에 GFL, SyncBN, iBN, ResNet-50-C 등을 추가로 사용하여 더 빠른 버전인 UniverseNet-20.08d, UniverseNet-20.08s 등의 variation을 만들었습니다.
 

Experiment

  1. Experimental Settings
    1. notion image
      실험은 MMDetection v2 코드를 사용하였고, COCO pre-trained 모델을 기존 알고리즘들의 학습에 사용하였습니다. 데이터셋별로 학습 세팅은 위와 같습니다. 테스트 스케일은 USB standard protocol 범위에서 이미지의 종횡비를 고려하여 세팅하였습니다.
      COCO 모델은 ImageNet pre-trained를, WOD와 M109s는 COCO-pretrained 모델을 사용하였습니다.
       
  1. Benchmark Results on USB
    1. notion image
      위 실험 결과는 USB-1.0 프로토콜에 따라 학습된 모델들을 세 데이터셋에 평가한 결과 및 그 평균(mCAP)입니다. Cascade R-CNN과 ATSS는 각각 Faster R-CNN과 RetinaNet에 비해 2% 가까운 향상을 보였지만, COCO 데이터셋에서 성능 향상을 보인 어떤 기법들은 다른 두 데이터셋에서 오히려 더 낮은 성능을 만들었습니다. 따라서 USB는 COCO에 편향된 기법에 대해 패널티를 적용한다고 볼 수 있습니다.
      notion image
      notion image
       
  1. Comparison with State-of-the-Art
    1. notion image
      USB 프로토콜에 따라 학습 및 평가된 SOTA 알고리즘들의 결과 비교입니다. UniverseNet 세팅은 가장 좋은 성능과 FPS를 보여줍니다.
      TTA는 horizontal flip 및 multi-scale testing을 의미합니다. FPS는 V100에서 mixed-precision으로 측정되었습니다.
       

Conclusions

Optional subsections (Heading 3)

 
 
 
Share article