Paper Info
CVPR 2017

Goal of The Paper
Scene Text Recognition 태스크에 대한 접근법 중 attention 기반 방법들에서 공통적으로 발생하는 인코딩 벡터에 대한 attention의 부정확한 문제를 해결하기 위한 방법을 제시
Contribution
- Attention이 부정확한 문제를 처음으로 주목하여 이 문제를 attention drift라 정의하고 그 원인을 씬의 복잡함, 저화질 등에 기인한 것으로 추정함.
- attention drift 문제를 해결하기 위해서 기존의 attention network에 추가적으로 attention을 보정할 수 있는 모듈, Focusing Network를 제안함. FN은 기존의 attention network에 character 레벨의 supervision loss를 주는 것이 핵심.
- 기존 방법 대비 SOTA를 달성
Proposed Methods
Attention Drift Problem
Attention 기반의 recognition에서 attention 영역을 visualization 해보면, 일부 이미지에서 현재 출력과 입력 영상에서의 attention 영역이 일치하지 않는 문제가 자주 발생한다. 이 문제를 이 논문에서는 attention drift라 명명하고, 이를 바로 잡을 수 있는 방법을 제안한다.

The FAN(Focusing Attention Network) Method
제안 방법은 기존의 attention 기반 recognition 과 동일한 Attention Network(AN)과 그 위에 추가된 Focusing Network(FN)로 구성됨.
Attention Network (AN)
이 부분은 기존의 attention 기반 논문 설명으로 대체.
제안 논문의 FN에서 사용되는 수식 정리
Glimpse Vector
Focusing Network (FN)

FN의 기본 전략은 입력 feature vector의 attention 영역의 center point c_t를 구한 후, c_t 주변의 피쳐벡터에 attention이 되도록 character 레벨의 supervision loss를 주는 것임.
Computing attention center
L번째 CNN 레이어서 L-1번째 레이어의 receptive field의 바운딩 박스 r을 구하는 식은 다음과 같다.

위 수식을 이용하면, t번째 스텝에서 j번째 입력 feature vector h_j의 입력영상에서의 receptive field를 구하고, 해당 영역의 center를 attention center로 선택한다.
Focusing attention on target regions
입력 영상 또는 입력영상의 feature map에서 attention 영역의 patch를 P_H, P_W 크기로 crop 한다.

잘라낸 패치로 부터 energy distribution을 다음과 같이 구한다.
위 확률 분포와 실제 문자의 character 레벨 위치 GT를 비교하여, focusing loss를 다음과 같이 계산한다.
FN 네트워크는 오직 학습에만 이용되고 inference에는 사용되지 않는다.
FAN Training

FAN 네트워크 구조는 위 그림과 같다. 전체 loss function은 다음과 같다.

이 때 람다는 0과 1사이의 값으로 두 loss의 weight를 결정한다.
Performance Evaluation

위 실험에서 제안 방법의 람다는 0.01을 사용하였다. 학습 영상은 8-million synthetic data without pixel-wise labeling / 4-million synthetic data with pixel-wise labeling으로 구성되었다.
제안 방법은 기존의 방법을 큰 차이로 넘어서는 성능을 달성하였다. 베이스라인은 resnet 기반으로 구현된 AN 이다.


NED 메트릭은 ICDAR competition에서 사용된 메트릭으로 위 표를 참조한다. 제안 방법이 베이스라인에 비해 매우 큰폭으로 향상됐음을 알 수 있다.
The Effect of Parameter λ
FN 네트워크에 의한 loss 비중을 결정하는 람다는 0.01일 때가 가장 큰 효과를 보여주었다.

The Effect of Pixel Labeling
문자 단위 라벨링의 비율이 성능에 미치는 정도를 비교한 결과는 다음과 같다.

단 1%의 supervision 만으로도 많은 성능 개선이 나타난다는 것을 알 수 있다.
My Opinion
- 제안 방법은 attention의 정확도를 높이기 위해 일종의 semi-supervision을 적용한 방법이다. 결과를 보면, 아주 소량의 character-level supervision 으로도 꽤 높은 성능을 보여준 것이 매우 고무적이다.
- attention center를 계산할 때, 각 feature vector들의 센터 포인트들의 weighted sum으로 계산을 하는데, 사실 attention은 영상에서 한군데 지점이 아닌 여러 군데 지점에 분산되어 있을 수 있다. 따라서, 단순히 weighted sum으로 센터를 구하고, 이 센터가 타겟 문자 위에 있도록 하는 것이 반드시 성능 향상에 부합하는 방향은 아닐 수 있다. 경우에 따라서는 여러 군데의 attention center가 존재하는 경우를 상정한 attention center 추정이 필요하다.
Share article






