Gliding vertex on the horizontal bounding box for multi-oriented object detection

Oct 26, 2021

Gliding vertex on the horizontal bounding box for multi-oriented object detection

Contents

Introduction Proposed Method Experiment Conclusions

Introduction

본 논문에서는 다 방향 물체 감지를위한 간단하면서도 효과적인 프레임 워크를 제안합니다. 구체적으로, 다중 방향 객체를 정확하게 묘사하기 위해 수평 bounding box의 각 vertex를 glide하도록 제안합니다. 이것은 고전적인 수평 bounding box 표현에 4 개의 gliding offset variables를 추가한 새로운 표현방법입니다. 간단히 말해서 수평 bounding box의 각 측면에서 상대 gliding offset(그림 1 참조)을 특징 짓는 4 개의 길이 비율을 회귀합니다. 이러한 표현은 회전 된 바운딩 박스 표현에서의 각도 예측 에러보다 오프셋 예측 에러에 덜 민감 할 수 있습니다. horizontal bounding box의 해당면에서 오프셋을 제한함으로써 오프셋 학습을 용이하게 할 수 있으며, 방향이 지정된 객체의 4개의 정점을 직접 회귀시키는 순차적 레이블 포인트에 대한 혼동을 피할 수 있습니다. 거의 수평인 물체에 대한 혼동 문제를 더 없애기 위해, 다 방향 물체와 수평 경계 상자 사이의 면적 비율에 기초한 obliquity factor를 도입합니다. 제안된 방법은 단지 5개의 추가 목표 변수만 도입하기 때문에 ignorable extra computation time이 필요하다는 점에 주목할만 합니다.

이 논문의 주요 기여는 3 가지입니다.

1) 방향성 있는 객체에 대해 간단하지만 효과적인 표현을 소개합니다. 이는 offset prediction error를 상쇄하기에 다소 강력하고 confusion issue가 없습니다.

2) 거의 수평인 물체와 방향성을 가진 물체에 대한 혼동 문제를 해결하는 불확실성 요소를 제안한다.

3) 제안된 방법은 여러 다중 지향적 물체 감지 벤치 마크에서 일부 SOTA 방법보다 성능이 뛰어납니다.

Proposed Method

Multi-Oriented object representation

제안된 방법은 oriented objects에 대한 간단한 표현과 효과적인 selection scheme에 의존합니다. 주어진 방향성 객체 O (Fig 2의 Blue 박스) 및 이에 대응하는 수평 바운딩 박스 Bh에 대해 vi, i ∈ {1, 2, 3, 4}는 수평 경계 상자 Bh와 v'i, i ∈ {1, 2, 3, 4}, 수평 경계 상자 Bh는 일반적으로 (x, y, w, h)로 표시됩니다. 여기서 (x, y)는 중심이고 w와 h는 너비와 높이.

기본 지향 객체를 (x, y, w, h, α1, α2, α3, α4)로 표현할 것을 제안합니다. 추가 변수 αi, i ∈ {1, 2, 3, 4}는 다음과 같이 정의됩니다.

|| si || = || vi − v'i ||는 vi와 v'i 사이의 거리, 즉 v'i에서 vi까지의 글라이딩 오프셋을 나타내는 세그먼트 si = (vi, v 'i)의 길이를 나타냅니다. 수평 객체의 경우 모든 αi가 1로 설정되어 있습니다.

oriented object O에 대한 (x, y, w, h, α 1, α 2, α 3, α 4)에 대한 간단한 표현 외에도 O의 기울기 정도를 특징으로하는 obliquity factor를 소개합니다. 이것은 O와 Bh 사이의 면적비 r에 의해 계산 됩니다 :

거의 수평 인 물체는 1에 가까운 큰 오차 계수 r을 가지며, 매우 가는 oriented objects를 위한 경사 계수 r은 0에 가깝습니다. 실제로 거의 수평에 가까운 box는 수평의 객체로 나타내는 것이 합리적입니다. 그러나 oriented objects를 정확하게 설명하려면 oriented detections가 필요합니다.

Multi-Oriented object representation

네트워크 아키텍처 (그림 3 참조)는 faster R-CNN과 거의 동일합니다. 우리는 faster R-CNN의 head에 5개의 추가 목표 변수(sigmoid funciton를 사용하여 [0, 1]로 정규화)를 추가합니다. 구체적으로, 입력 이미지는 우선 backbone 네트워크에 공급되어 deep features를 추출하고 RPN으로 bounding box proposals을 생성합니다. 그런 다음 RoIAlign을 통해 추출한 지역 지형지물은 수정된 R-CNN Head를 통과하여 수평 경계 상자 (x, y, w, h)와 4개의 변수 (α1, α2, α3, α4) 및 객체가 거의 수평인지 아닌지를 나타내는 obliquity factor r 통해 최종 결과를 만들게됩니다.

Ground-truth generation

각 객체의 ground-truth은 고전적인 수평 경계 상자 표현 (x̃, ỹ, w̃, h̃), 방향 객체를 나타내는 4 개의 추가 변수(α̃ 1 , α̃ 2 , α̃ 3 , α̃ 4) 및 obliquity factor r̃ 의 세 가지 구성 요소로 구성됩니다. 추가적인 변수들은 오로지 기본적인 ground-truth object에만 의존하며 식((1)과 (2))에 의해 직접 계산됩니다.

Training objective

제안 된 방법은 RPN 단계 및 RCNN 단계에 대한 손실을 포함합니다. RPN의 손실은 Faster R-CNN의 손실과 동일합니다. R-CNN 헤드에 대한 손실 L은 classification loss (Lcls) 및 regression loss(Lreg)를 포함합니다. R-CNN 손실 L은 다음과 같습니다.

여기서 Ncls와 Nreg는 각각 head에 공급되는 미니 배치의 총 proposals 수와 positive proposals 수입니다. i는 미니 배치에서 proposals의 index를 나타냅니다. i 번째 proposal이 양수이면 p* i는 1이고, 그렇지 않으면 0입니다. 회귀 손실 Lreg에는 horizontal bounding box에 대한 3개의 항, 4 개의 길이 비율 (α1, α2, α3, α4) 및 경사 계수 r 회귀가 포함됩니다. 각각. 간단히 말하면, 회귀 손실 Lreg는 다음과 같습니다.

여기서 Lh는 수평 상자 회귀의 손실입니다. λ1, λ2 및 λ3은 각 Loss 항의 하이퍼 파라미터입니다.

Inference

테스트 단계에서, 주어진 이미지에 대해, 순방향 패스는 수평 경계 박스, 4 개의 길이 비율 및 평형 계수를 나타내는 (x, y, w, h, α1, α2, α3, α4, r) 세트를 생성합니다. 각 후보에 대해, 그 obliquity factor r이 임계 값보다 크면, 물체가 거의 수평임을 나타내며, 최종 detection으로서 horizontal bounding box(x, y, w, h)를 선택합니다. 그렇지 않으면 (x, y, w, h, α1, α2, α3, α4)로 주어진 방향을 선택합니다. The nonmaximum suppression (NMS) 프로세스도 수행됩니다. 특히, 일부 후보 제안을 제거하기 위해 먼저 efficient horizontal NMS (0.5 IoU 임계 값 사용)를 채택한 후 후보 제안 수를 크게 줄인 oriented NMS (0.1 IoU 임계 값 사용)를 사용합니다.

Experiment

Datasets and evaluation protocols

DOTA는 quadrangle 주석이있는 항공 이미지에서 물체를 감지하기위한 대규모의 까다로운 데이터 세트입니다. 2806개의 4000 × 4000 이미지 및 188, 282 인스턴스의 15 개체 범주를 가집니다. : plane, baseball diamond (BD), bridge, ground field track (GTF), small vehicle (SV), large vehicle (LV), ship, tennis court (TC), basketball court (BC), storage tank (ST), soccer-ball field (SBF), roundabout (RA), harbor, swimming pool (SP) and helicopter (HC). DOTA의 공식 평가 프로토콜은 mAP가 사용됩니다.

HRSC2016은 회전 된 사각형으로 주석이 달린 1061 개의 이미지를 포함하는 항공 이미지의 선박 감지 전용입니다. 우리는 배경에서 선박을 감지하는 level-1 과제에 대한 실험을 수행합니다. HRSC2016의 표준 평가 프로토콜로 mAP이 사용됩니다.

긴 방향의 텍스트를 감지하기 위해 MSRA-TD500이 제안됩니다. 여기에는 텍스트 줄에 주석이 달린 300 개의 교육 및 200 개의 테스트 이미지가 포함되어 있습니다. training set이 다소 작기 때문에 다른 방법과 유사하게 훈련 중에 HUSTTR400도 사용합니다. F-measure에 기반한 MSRA-TD500의 표준 평가 프로토콜이 사용됩니다.

RCTW-17는 긴 텍스트 탐지 데이터 셋으로 텍스트 라인으로 주석이 달린 8034 개의 훈련 이미지와 4229 개의 테스트 이미지로 구성됩니다. 이 데이터 세트는 텍스트 스케일 차이가 매우 크기 때문에 매우 까다롭습니다. 우리는 F- measure 측면에서 온라인 평가 플랫폼을 통해 제안된 방법을 평가합니다.

MW-18Mar은 multi-target 수평 보행자 추적 데이터 세트로 fisheye cameras로 이미지를 촬영합니다. [34]의 저자는 전 방향 보행자 감지를 위해 일부 프레임을 추출하고 회전 사각형으로 보행자에 주석을 달았습니다. FPPI (False Positive Per Per Image) 및 LAMR (Log Average Miss Rate) [41]마다의 average miss rates가 벤치마킹에 채택됩니다.

Implementation Details

제안 된 방법은 3 개의 Titan Xp GPU를 사용하는 "maskrcnn 벤치 마크"프로젝트를 기반으로 구현됩니다. 다른 방법들과의 공정한 비교를 위해, 우리는 항공 이미지에서 물체 감지를 위해 ResNet101 [42]을 채택합니다. GPU 메모리 제한으로 인해 배치 크기가 6으로 설정되었습니다. 다른 실험에서는 ResNet50이 채택되고 배치 크기는 12로 설정되었습니다. 모든 실험에서 SGD optimizer에 의해 네트워크는 momentum과 weight decay가 각각 0.9 및 5 × 10-4로 설정되어 학습됩니다. learning rate는 7.5 × 10-3으로 초기화되고 각 learning rate decay step에서 10으로 나뉩니다. 하이퍼 파라미터 λ1, λ2 및 λ3는 각각 1, 1 및 16으로 설정됩니다.

명시적으로 지정하지 않으면 수평 또는 방향 감지의 선택을 안내하는 obliquity factor에 대한 하이퍼 파라미터가 0.8로 설정됩니다. 다른 응용 프로그램 관련 설정은 해당 섹션에 설명되어 있습니다. 제안된 방법을 회전 된 경계 상자 (RBox Reg.로 표시) 및 quadrangle(Vertex Reg.로 표시)을 사용하는 두 가지 기본 방법과 비교합니다. 공정한 비교를 위해 두 가지 기준 방법은 제안된 방법과 유사한 설정을 사용하여 구현됩니다.

Object detection in aerial images

DOTA에 대한 실험의 경우, 모델을 50k 단계로 훈련시키고 학습 속도는 {38k, 46k} 단계에서 감소합니다. data augmentation에는 {0, π / 2, π, 3π / 2} 사이의 각도 및 클래스 밸런싱이 무작위로 채택됩니다. HRSC2016 [36] 실험에서는 3.2k 단계 모델을 학습하고 2.8k 단계에서 학습 속도를 줄였습니다. data augmentation에는 Horizontal flipping이 적용됩니다. 공정한 비교를 위해 훈련/테스트 이미지의 크기와 두 데이터 세트의 앵커 설정은 동일하게 유지됩니다.

illustrated된 바와 같이, 제안된 방법은 조밀 한 분포 또는 긴 경우에도 수평 및 배향 된 물체를 정확하게 검출합니다. DOTA [23] 및 HRSC2016 [36]에 대한 다른 방법과의 정량적 비교는 Tab에 표시되어 있습니다. 1과 탭. 2입니다. 계단식 다듬기 및주의 메커니즘과 같은 추가 네트워크 설계가없는 경우 제안 된 방법은 DOTA 및 HRSC2016에서 일부 최신 방법보다 성능이 뛰어나고 런타임에서 더 효율적입니다. 구체적으로, DOTA에 대한 실험에서, FPN이없는 제안 된 방법은 73.39 % mAP를 달성하여 최신 방법보다 5.65 % mAP를 능가합니다. 더 나은 멀티 스케일 기능을 활용하는 FPN은 제안 된 방법에도 유리하며 성능을 75.02 %로 향상시킵니다. FPN을 사용하여 제안 된 방법은 SOTA (R2CNN++)을 3.86 % mAP 향상시킵니다. HRSC2016 데이터 세트의 경우 제안 된 방법은 88.2 % mAP를 달성하여 최신 방법을 2% 개선합니다.ㅎ

Ablation study

제안 된 방법은 수평 경계 상자 (x, y, w, h), 글라이딩 오프셋 (α1, α2, α3, α4) 및 경사 계수 r의 세 가지 구성 요소로 구성된 새로운 다중 지향적 객체 표현에 의존합니다. FPN과 함께 Faster R-CNN 헤드를 사용하여 각 개별 구성 요소의 품질을 분석하는 실험을 진행하였습니다. 먼저 제안된 방법은 horizontal bounding box 평가에서 76.22 % mAP로 우수한 성능을 달성합니다. 방향과 수평 물체 감지 사이의 작은 성능 차이 (i.e., 1.2 % mAP)는 gliding offset regression도 매우 정확함을 의미합니다.

정확하게 탐지 된 물체에 대한 평균 절대 오차 (MAE)로 gliding offset regression의 정확도를 명시적으로 평가합니다. Fig 5에 도시된 바와 같이, gliding offset regression는 oriented object에 대해 상당히 정확하지만, 잠재적 혼란 문제가 남아있는 거의 수평 인 물체 (예를 들어, r> ~ 0.8)에 대해서는 정확도가 떨어진다. 이것은 우리가 수평 또는 방향 감지의 선택을 최종 감지 결과로 유도하기 위해 불완전한 요소 r을 회귀하도록 동기를 부여하여, 거의 수평 물체에 대한 나머지 혼란 문제를 해결하는 데 도움이됩니다. 실제로, Fig 5에 도시된 바와 같이, obliquity factor r 회귀는 일반적으로 매우 정확합니다 (MAE <5.3 %).

일부 정성적 비교는 Fig 6에서 확인할 수 있습니다. 여러 각도로 이미지를 회전하고 제안 된 방법과 회전 된 이미지에 대한 두 가지 기본 방법을 테스트합니다. RBox reg는 부정확한 각도 회귀로 인해 부정확한 결과가 생성됩니다. Vertex reg는 훈련에서 정점 순서를 정의하는것의 어려움 때문에 일부 방향에서 기울어진 객체에 어려움이 있습니다. 제안 된 방법은 모든 방향의 물체를 정확하게 감지 할 수 있습니다.

또한 FPN을 사용하는 Faster R-CNN 헤드를 사용하여 DOTA 데이터 세트에 대한 obliquity factor r의 다양한 임계 값 tr의 효과를 분석합니다. tab 3에 묘사 된 바와 같이, 성능은 특히 tr ∈ [0.75, 0.85]에서 다소 안정적입니다. tr이 작고 클수록 성능이 약간 떨어집니다. 실제로, 매우 작은 임계 값 tr로, horizontal bounding boxes가 일부 oriented objects를 나타내도록 선택되어, 부정확한 검출을 초래한다. 큰 임계 값 tr을 채택하면 거의 수평인 물체에 대한 잠재적인 혼란 문제가 남아 성능도 저하됩니다.

Long text detection in natural scenes

MSRA-TD500 및 RCTW-17의 oriented scene text detection를 위해 SSD와 동일한 data augmentation을 적용합니다. 또한 세로 텍스트를 더 잘 처리하기 위해 π/2로 이미지를 임의로 회전합니다. 훈련 이미지는 무작위로 자르고 특정 크기로 크기가 조정됩니다. MSRA-TD500의 경우 자른 이미지의 짧은면을 {512, 768, 864}로 임의로 크기를 조정합니다. 많은 작은 텍스트를 포함하는 RCTW-17의 경우 짧은면의 크기는 임의로 {960, 1200, 1400}으로 조정됩니다. 먼저 하나의 pre-train에 대해 SynthText에서 모델을 1 epoch 만큼 사전 훈련시킵니다. 그런 다음 모델을 4k (각각 14k)로 미세 조정하고 MSRA-TD500 (각각 RCTW-17)에 대해 3k (각각 10k) 단계로 학습 속도를 줄입니다. 테스트 중에 MSRA-TD500 이미지의 짧은면은 768로 크기가 조정됩니다. RCTW17의 경우 짧은면은 단일 스케일 테스트의 경우 1200으로 설정됩니다. 멀티 스케일 테스트를 위해 추가 스케일 {512, 1024, 1280, 1560}을 추가합니다.

일부 정성적인 그림이 그림 7 (b-e)에 나와있습니다. 제안 된 방법은 임의의 방향의 텍스트를 올바르게 감지합니다. MSRA-TD500 및 RCTW-17의 SOTA의 정량적 비교는 Tab4 및 5에 표시되어 있습니다. 제안된 방법은 다른 경쟁 방법보다 성능이 우수하며 두 데이터 세트 모두에서 더 효율적입니다. 특히, MSRA-TD500에서 단일 스케일 테스트하에 제안 된 방법은 더 큰 추가 훈련 이미지를 사용하여 [7]의 멀티 스케일 버전보다 0.5 % 우수한 성능을 보이며 [46]을 2.9 % 향상시킵니다. RCTW-17에서 제안 된 방법은 단일 규모 테스트에서 최첨단 방법 [8]보다 5.8 % 보다 훨씬 효율적이지만 성능이 뛰어납니다.

Pedestrian detection in fisheye images

제안 된 방법을 두 개의 기본 방법인 RBox reg 및 Vertex reg, classical horizontal box regression (HBox reg로 표시) 및 MW-18Mar [40]의 [34] 방법(“Omnidirectional pedestrian detection by rotation invariant training")과 비교합니다 . [34]와의 공정한 비교를 위해 [34]와 유사한 교육 및 테스트 설정을 따릅니다. 모든 실험에서 FPN은 사용되지 않습니다. 교육 및 테스트 중에는 모든 이미지의 크기가 416 × 416으로 조정됩니다. 훈련하는 동안 데이터 확대를 위해 이미지를 무작위로 회전시킵니다. 이 모델은 총 4k 단계로 학습되며 학습 속도는 3k 단계에서 감소합니다. 일부 정성적 결과가 Fig 8에 나와 있습니다. 제안된 방법은 모든 baseline methods보다 더 정확한 결과를 얻습니다. 이미지 당 False positives 수에 대한 누락률 곡선이 그림 9에 나와 있습니다. 제안 된 방법은 다른 모든 방법보다 낮은 missing rate을 달성합니다.

Conclusions

본 논문에서는 oriented objects에 대한 단순하면서도 효과적인 표현과 multi-oriented objects를 탐지하기위한 divide-and-conquer 전략을 제안한다. 이를 바탕으로 견고하고 빠른 multi-oriented object detector를 구축합니다. 이는 arial 이미지의 물체, 장면 텍스트 및 fisheye images의 보행자와 같은 유비쿼터스 multi-oriented objects를 정확하게 감지합니다. 광범위한 실험은 제안된 방법이 여러 벤치 마크에서 일부 최신 방법보다 성능이 우수하지만 더 효율적임을 보여줍니다.