MORAN: A Multi-Object Rectified Attention Network for Scene Text Recognition

Inc Lomin's avatar
May 08, 2019
MORAN: A Multi-Object Rectified Attention Network for Scene Text Recognition
notion image
  • accepted to appear in Pattern Recognition, 2019
  • code available(Pytorch)

Introduction

Goal

Scene Text Recognition 태스크에서 Irregular 텍스트 인식문제를 해결하기 위해, 이미지를 rectify 한 후 attention-based decoder 구조를 적용.
notion image

Contribution

  1. Multi-object rectification network(MORN): Irregular 이미지를 rectify하는 spaital-transformer-like 구조를 사용.
  1. An Attention-based sequence recognition network(ASRN): mis-alignment problem between features and targets 를 해결하기 위해 학습에 적용되는 a fractional pickup method를 제안.
  1. 위 두가지 모듈을 효과적으로 학습 시키기 위한 curriculum learning 전략을 제안

Proposed Method

 
notion image
제안 방법은 이미지를 rectify 하는 MORN 파트와 Attention-based recognition을 수행하는 ASRN 파트로 나뉜다. 두 파트는 연결되어, end-to-end 방식으로 학습 가능하다.

Multi-Object Rectification Network

Irregular 텍스트를 rectify 하는 대표적인 방법으로 affine transform을 고려해 보면, affine transform이 표현하는한 변환은 rotation, scaling, translation 으로 제한된다. 이러한 변환만으로는 아래의 그림과 같은 irregular 텍스트를 regular 텍스트 형태로 변환하는데 충분치 않다. 따라서, geometric contraint가 없는 변환 방법의 적용이 필요하다.
notion image
MORN은 자유로운 변환을 위해, 이미지 좌표마다의 변환될 offset을 예측하는 네트워크를 weakly-supervision 방식으로 예측하고, 해당 offset map을 이용하여, 원본 이미지에서 타겟 이미지로의 변환을 위한 sampling grid를 구성하여, 이미지를 변환한다.
  • offset map 예측을 위한 네트워크 구조는 아래의 표와 같다. 네트워크의 출력은 입력 영상 사이즈로 리사이즈된다. 2개의 출력 채널은 각각 x와 y 좌표에 대한 offset을 예측하는데 사용된다.
    • notion image
  • Basic grid: 원본 이미지의 좌표를 [-1,1]의 범위로 노말라이즈하여 표현한 좌표 그리드. 좌상단 좌표는 (-1, -1), 우하단 좌표는 (1,1)로 표현됨
  • Offset Map의 좌표를 픽셀 위치마다의 상대적 차이값이 아닌 절대 좌표값으로 변환하기 위해, offset map과 basic grid를 합한 후에, 노말라이즈된 좌표계를 다시 원본 좌표계([0,Width], [0,Height])로 변환한다.
  • 샘플링은 bilinear interpolation을 통해 아래와 같이 수행된다. (I:원본이미지, I':rectified image) 아래의 샘플링은 differential 한 과정이므로 SGD 등으로 학습이 가능하다.
    • notion image
 
아래의 그림은 MORN의 적용 예제 이미지이다. Perspective 효과 및 curve가 일부 rectify되고, 불필요한 배경 부분이 제거되는 효과가 있다.
notion image
SceneText Recognition 문제에 Spatial Transformer-like 방법을 적용한 RARE 방법과 제안 방법의 차이는, RARE의 경우, sampling grid를 예측하기 위해, 이미지에서 정해진 갯수의 fidual points의 위치를 예측한 후, 해당 점들이 rectify되는 변환을 계산하여 사용하였다. 하지만, 본 논문의 저자들에 따르면, 이미지의 전체에서 sampling grid에 대한 offset을 예측하는 제안 방법이 훨씬 flexible한 변환 예측이 가능하고하다. 특히 RARE의 경우, 이미지의 width가 긴 경우, 정해진 갯수의 포인트만을 예측하기 때문에 그 정확도가 떨어지는데 제안방법은 그러한 문제가 발생하지 않는다.
Shi, Baoguang, et al. "Robust scene text recognition with automatic rectification." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2016.

Attention-based Sequence Recognition Network

제안 방법은 Attention-based Decoder 구조를 사용하는데, 기본 구성은 기존의 방법들과 동일하다. (자세한 설명은 생략한다.)
notion image
notion image
notion image
notion image
notion image
아래는 feature extraction을 위한 네트워크 구조이다.
notion image

Fractional Pickup

Attention-based Recognition에서 흔히 발생하는 mis-alignment 문제를 해결하기 위해 제안 방법에서는 학습 과정에서 attention 영역을 랜덤하게 넓히도록 변형하여 사용하여, attention 영역에 따른 인식 성능이 robust 해지도록 학습되는 전략을 사용하였다.
즉, 학습과정에서 타임스텝 t에서 먼저, 변형할 attention index k를 랜덤하게 고른후, k 번째와 k+1 번째 attention을 다음과 같이 변형하여 사용한다.
notion image
Fractional Pickup의 효과는 k+1번째 스텝에 대한 attention에 k번째 스텝에 사용된 attention이 포함되어, 이전 스텝의 정보를 더 활용하게되고, 네트워크의 robustness가 증가된다.( 저자들의 설명은 앞선 문장과 같이 나와 있지만, 사실 학습과정에서 랜덤하게 선택된 k번째 스텝의 attention만 변형을 하는 것이 항상 이전 스텝의 정보를 더 활용하도록 해주진 않는다. 따라서, 이전 스텝의 정보를 활용하게 된다는 설명은 적절치 않고, fractional pickup은 일종의 dropout과 같은 역할을 통해 학습된 attention은 robustness를 증가 시켜준다는 정도로 이해하면 좋을 듯하다.)
notion image

Curriculum Training

본 논문에서 제안된 MORN과 ASRN을 처음부터 end-to-end 방식으로 학습을 하면 매우 오랜 시간이 소요된다. 왜냐하면, ASRN이 irregular 텍스트를 잘 인식하도록 학습된 경우, MORN이 이미지를 rectify하는 것에 방해가 되고, 반대로, MORN이 rectify를 잘 수행한다면, ASRN이 robust 하지 않게 되기 때문이다. (저자들의 설명은 이렇게 되어 있지만, 사실 이치에 잘 맞지 않는다.)
제안 방법은 효과적인 학습을 위해 다음과 같은 커리큘럼 러닝을 제안하였다.
  1. ASRN을 regular text 데이터셋에 먼저 학습
  1. 1번의 ASRN을 freezing 시키고, irregular dataset에 MORN을 학습
  1. end-to-end 학습

Experiment

notion image
notion image
제안 방법은 오직 synthetic dataset(SynthText + Synthetic Word Dataset (Oxford, VGG))만을 사용하여 학습하였다.
제안 방법과 유사한 접근법을 사용한 기존 방법과의 성능 비교는 다음과 같다.
Affine transform의 경우: STAR-Net
notion image
RARE
RARE와 공정한 비교를 위해, RARE와 동일한 구조의 recognition network를 사용하여 제안 방법을 학습하였다. 그 결과, 모든 데이터셋에서 RARE 대비 크게 향상된 결과를 보여주었고 특히, Curved text 위주인 CUTE80에서 RARE 대비 13% 향상된 성능을 보여주였다.
notion image
notion image

General Benchmark

notion image
notion image
notion image

Conclusions

제안 방법은 Irregular text 인식을 위한 개선된 rectification 방법, Fractional Pickup 방법, 커리큘럼 러닝 방법 등을 제안하여, scene text 태스크에서 높은 성능을 기록하였다.
제안방법은 높은 성능을 달성하긴 했으나, 그 성능의 실효성은 의심되는 부분들이 있다. 하지만, rectification 방법의 경우, 기존의 방식 보다 좀더 straight-forward 하다는 장점이 있다.
 
Share article