UR2KiD: Unifying Retrieval, Keypoint Detection, and Keypoint Description without Local Correspondence Supervision

Oct 29, 2021
UR2KiD: Unifying Retrieval, Keypoint Detection, and Keypoint Description without Local Correspondence Supervision


이 논문에서는 keypoint detection, description, 그리고 image retrieval까지 한번에 해결할 수 있는 framework을 제안합니다. 특히, 기존의 local matching 알고리즘은 pointwise/pixelwise 매칭 ground-truth가 주어져야 학습이 가능했지만 제안하는 알고리즘은 image pair만 가지고도 학습할 수 있습니다.

Proposed Method

notion image
  1. Local Keypoint and description
    1. 이미지로부터 feature를 추출하는 과정에는 ImageNet에 pretrain된 ResNet-101을 사용했습니다.
      이 네트워크에서 나온 feature로부터 matching affinity matrix를 계산합니다.
      a는 query image, p는 매칭이 되는 positive sample을 의미합니다.
      notion image
      이 matrix의 column, row별 최댓값을 사용하여 average score를 계산합니다.
      notion image
      Score를 사용하여 margin loss를 계산합니다.
      notion image
      Matching loss만 사용하면 low-dimensional descriptor는 high-dimensional descriptor의 정보를 가지지 못합니다. High-dimension 정보를 low-dimension으로 흘려보내기 위하여 distilling 방법을 제안합니다.
      notion image
  1. Global description
    1. General mean operation(GeM) 알고리즘에서 제안하는 바에 따라 다음과 같이 global representation을 계산합니다.
      notion image
      Image retrieval을 위한 global descriptor의 학습에는 이전의 방식들과 같이 siamese network를 사용합니다.
      notion image
  1. Joint local and global training
    1. Local & global task는 다음 loss를 사용하여 jointly 학습됩니다.
      notion image


다음 결과는 Aachen day-night 데이터셋에서 localization threshold를 나타낸 것입니다.
notion image
아래는 Image retrieval 결과(mAP) 입니다.
notion image


