Verisimilar Image Synthesis for Accurate Detection and Recognition of Texts in Scenes

Inc Lomin's avatar
May 09, 2019
Verisimilar Image Synthesis for Accurate Detection and Recognition of Texts in Scenes
 
notion image
  • ECCV 2018 paper
  • Dataset available: 1k, 10k for detection, 1M for recognition
  • code는 아직 공개 안됨.(20190509 기준)

Introduction

Goal

본 논문은 scene text detection/recognition 태스크를 위한 합성 데이터셋을 만드는 방법에 대한 것이다. 본 논문은 기존 2개의 scene text용 합성 데이터셋 생성 방법과 같은 카테고리에 속한다.
Jaderberg, Max, et al. "Synthetic data and artificial neural networks for natural scene text recognition." arXiv preprint arXiv:1406.2227 (2014).
Gupta, Ankush, Andrea Vedaldi, and Andrew Zisserman. "Synthetic data for text localisation in natural images." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2016.

Contributions

  1. "semantic coherent" 를 고려하여, 텍스트가 존재할 가능성이 높은 오브젝트의 표면에 합성. semantic 정보는 semantic segmentation 데이터셋을 이용함.
  1. 텍스트를 homogeneous한 영역에만 합성하기 위해, visual saliency를 예측하여, saliency가 낮은 영역에만 합성.
  1. 배경 영상에 자연스러운 텍스트 컬러, 밝기를 결정하는 scene text appearance 모델을 디자인함.
 

Proposed Method

Overview

notion image
제안방법의 텍스트 이미지 합성 단계는 위의 그림과 같다. 먼저, semantic segmentation 정보가 있는 배경 영상에 saliency map을 생성하고, 두가지 정보를 결합하여 텍스트를 합성하기 위한 영역을 결정한다. 그리고, 텍스를 합성할 영역의 정보로 부터 텍스트의 색과 밝기를 결정한 후, 이미지에 합성한다.

Semantic Coherence

notion image
텍스트를 합성할 대상을 결정할 때, 배경화면의 영역의 시맨틱 정보(or 오브젝트 종류)가 고려하여 합성하면 자연스러운 합성 영상을 얻을 수 있다. 예를 들면, 위 영상에서 하늘이나 구름, 양에 텍스트가 합성되는 것 보다는 울타리에 합성되는 것이 일반적으로 더 자연스럽다. 이러한 아이디어를 바탕으로, 제안 방법은 이미지의 semantic 정보가 이미 포함되어 있는 semantic segmentation 데이터셋에서 GT의 카테고리에 따라, 합성할 영역을 미리 결정하여, 해당 이미지 영역만을 문자 합성 영역으로 활용한다. 예를 들면, "구름, 나무, 사람, 양"과 같은 오브젝트는 합성 영역에서 제외한다.

Saliency Guidance

앞선 단계에서 시맨틱 정보로 걸러진 모든 영역들이 영상 합성에 적절한 것은 아니다. 예를 들면 아래 영상의 (c)에서 노란색 기계의 두 면에 걸쳐서 합성된 결과는 자연스럽지 못하다. 이 문제를 해결하기 위해서, 제안 방법은 visual saliency 를 예측하여, saliency map의 정보를 활용한다. 일반적인 씬에서 텍스트는 문자의 시인성을 높이기 위해 표지판 등과 같이 homogeneous 한 영역에 위치하는 경향이 있다. Homogeneous한 영역은 saliency map에서 낮은 saliency 값을 가지는 경향이 있다. (아래 그림의 (b)를 보면 노란색 기계의 옆면과, 앞에 있는 여성의 옷 영역이 낮은 saliency 를 가진다.)
notion image
따라서, 제안 방법은 saliency map을 이진화 하여, 낮은 saliency 영역에 대한 마스크를 만들과 이를 시맨틱 정보와 결합하여 텍스트를 합성할 영역을 결정한다.

Adaptive Text Appearance

이미지의 시맨틱 정보와 saliency 정보를 이용하여 텍스트 합성에 적절한 영역을 정한 후에는, 배경 영역의 색에 적절한 텍스트의 색을 결정해야 한다. 특정 배경에서 가장 자연스러운 텍스트의 색은 기존의 scene text 이미지에서 실제로 사용된 배경과 텍스트의 색 조합을 이용할 수 있다.
제안 방법은 ICDAR 2013 데이터셋에서 텍스트 박스 주변 영역에서 배경 색깔의 HoG(histogram of oriented gradient) feature를 추출하고, 텍스트 박스 내부의 색의 mean과 variance값을 Lab color space에서 추출한 후, 배경색과 텍스트 컬러,밝기 조합에 대한 데이터 P를 생성하였다.
notion image
그리고, 실제 합성을 할 대상 영역에서 배경색의 HoG feature를 추출한 후, P에 저장된 배경 영역 HoG feature와 가장 유사한 인덱스의 텍스트 컬러 조합을 합성할 텍스트의 Lab 컬러로 결정한다. 합성 텍스트의 컬러는 선택된 컬러의 mean과 variance를 이용하여 랜덤하게 결정한다.이때, 텍스트 폰트 또한 랜덤하게 결정된다.
notion image
마지막으로, 텍스트의 회전 방향 또한 텍스트를 합성 할 영역 주변의 주요 구조물의 gradient를 검출하여, 이와 수평이 되는 방향으로 결정하여 텍스트를 합성한다.

Implementation

제안 방법으로 생성된 데이터셋의 유효성 검증을 위한 text detection 알고리즘은 저자들이 직접 구현한 EAST 알고리즘을 사용하고 Recognition 모델은 CRNN 알고리즘을 사용하였다.

Experiment

Scene Text Detection

notion image
제안방밥은 detection 태스크에서 real 데이터셋과 synthetic 데이터셋을 함께 사용하여 학습 했을 때 성능이 향상하는 것을 확인 할 수 있었다.
아래의 테이블에서는 기존의 synthetic 데이터셋인 synthtext 데이터셋과 제안 방법의 ablation study를 보여준다. 제안 데이터셋으로 학습한 모델의 성능이 더 좋은 것을 확인 할 수 있다.
notion image

Scene Text Recognition

notion image
제안된 데이터셋을 이용하여 recognition 모델을 학습한 결과, 기존의 데이터셋 대비 더 높은 성능을 달성하였다. 아래서 제안 방법으로 생성된 데이터셋 이미지의 예시이다.
 
notion image

Conclusions

제안방법은 scene text detection과 recognition 모델 학습을 위해 synthetic 데이터셋을 생성하는 방법을 제안하였다. 제안된 방법은 비교적 자연스러운 텍스트 합성 영상을 만들어 낸다.
하지만, 합성 결과가 기존의 synthetic text 데이터셋 대비해서 합성 이미지의 품질에서 큰 차이를 만들어 내지는 못하는 것으로 보인다. 해당 분야 연구자 측면에서는 제안된 방법의 데이터셋과 기존의 데이터셋을 모두 조합하여 사용하면, 데이터의 다양성을 확보하여 더 높은 성능 달성이 가능할 것으로 예상된다.
 
 
 
Share article

More articles

See more posts