Introduction
이 논문에서는 keypoint detection, description, 그리고 image retrieval까지 한번에 해결할 수 있는 framework을 제안합니다. 특히, 기존의 local matching 알고리즘은 pointwise/pixelwise 매칭 ground-truth가 주어져야 학습이 가능했지만 제안하는 알고리즘은 image pair만 가지고도 학습할 수 있습니다.
Proposed Method
- Local Keypoint and description
이미지로부터 feature를 추출하는 과정에는 ImageNet에 pretrain된 ResNet-101을 사용했습니다.
이 네트워크에서 나온 feature로부터 matching affinity matrix를 계산합니다.
a는 query image, p는 매칭이 되는 positive sample을 의미합니다.
이 matrix의 column, row별 최댓값을 사용하여 average score를 계산합니다.
Score를 사용하여 margin loss를 계산합니다.
Matching loss만 사용하면 low-dimensional descriptor는 high-dimensional descriptor의 정보를 가지지 못합니다. High-dimension 정보를 low-dimension으로 흘려보내기 위하여 distilling 방법을 제안합니다.
- Global description
General mean operation(GeM) 알고리즘에서 제안하는 바에 따라 다음과 같이 global representation을 계산합니다.
Image retrieval을 위한 global descriptor의 학습에는 이전의 방식들과 같이 siamese network를 사용합니다.
- Joint local and global training
Local & global task는 다음 loss를 사용하여 jointly 학습됩니다.
Experiment
다음 결과는 Aachen day-night 데이터셋에서 localization threshold를 나타낸 것입니다.
아래는 Image retrieval 결과(mAP) 입니다.
Conclusions
Optional subsections (Heading 3)
Share article