Visual Semantics Allow for Textual Reasoning Better in Scene Text Recognition

Inc Lomin

Apr 19, 2022

Visual Semantics Allow for Textual Reasoning Better in Scene Text Recognition

Contents

저자

구현체는 아직 업로드 되지 않았습니다.

초록

기존의 STR 방법은 주로 시각 인식(Visual Recognition; VR) 모델로 예측한 1차원 문자 시퀀스의 결합 분포(Joint Probability)를 언어 모델을 사용하여 최적화했습니다. 이는 문자 인스턴스 내부와 인스턴스 사이의 시각적 의미(Visual Semantics)의 2차원 공간 문맥을 무시하여 시각 인식 모델이 임의 장면 텍스트를 잘 일반화하지 않습니다.

이러한 이슈를 처리하기 위해, 저자는 먼저 시각적 의미(Visual Semantics)에 기초한 텍스트 추론(Textual Reasoning)을 수행합니다.

시각 인식 모델로 예측된 Character Segmentation Maps이 주어지면, 각 인스턴스에 대해 하위 그래프(Subgraph)를 구성하는데, 여기서 노드는 그 안의 픽셀을 나타내고 간선(Edge)은 공간적 유사성에 기초하여 노드 사이에 추가됩니다.

그 후 이 하위 그래프들은 Root 노드들에 의해 순차적으로 연결되고 완전한(Complete) 그래프로 병합됩니다.

이 그래프에 기반하여, 본 논문은 Cross Entropy Loss로 지도(Supervising)하여, 문자 추론(Textual Reasoning)을 위한 그래프 컨볼루션 네트워크(GTR)를 고안합니다.

GTR은 Representative STR 모델에 쉽게 추가(Plugged In)될 수 있어 더 나은 문자 추론을 통해 해당 모델의 성능을 개선할 수 있습니다.

본 논문은 Segmentation 기반의 STR 베이스라인에 있는 언어 모델에 GTR을 병렬화하여 S-GTR이라는 모델을 구성합니다. 이 방식은 상호 학습을 통해 시각적-언어적 상보성(Complementarity)를 효과적으로 활용할 수 있습니다.

2022년 1월, S-GTR은 6개의 STR 벤치마크에서 SOTA 결과를 내고 있으며, 다중 언어 데이터셋에서 일반화가 잘 되어있습니다.

도입

장면 텍스트 인식(STR)의 태스크가 현실 문제에 도입되기 어려운 이유는 인식 결과가 복잡한 배경, 불규칙한 모양, 다양한 질감과 같은 다양한 요소들에 매우 영향을 받기 때문입니다.

기존 방법들은 주로 STR을 하나의 시각 인식 태스크로 다루며 ,입력 이미지에 대해 캐릭터 레벨 인식을 수행합니다. 이 방법들은 각 캐릭터를 식별하는 것에 대해 합리적인 성능을 보이지만, 필수적인 전역 문자 표현(Vital Global Textual Representations)을 무시하며 현실 세계 문제에서 강건한 인식 결과를 내기가 매우 어렵습니다.

전역 문자 모델링을 위해, 기존 연구들은 언어 모델을 활용하여, 시각 인식 모델에 의해 예측된 문자 시퀀스의 결합 분포를 최적화했습니다. 이 전략은 언어 문맥적으로 잘못된 예측을 바로 잡을 수 있지만, 임의 텍스트(ex: asdfqwer)와 애매한 케이스에 일반화되기는 어렵습니다.

위 그림의 (b)에 나와있듯, 불규칙하고 흐릿한 텍스트에 대해, 언어 모델조차 제대로 예측을 할 수 없었습니다.

언어적 단서 외에도, 공간적 맥락은 문자 시퀀스의 전역 텍스트 모델링에도 기여할 수 있지만 이러한 방식으로 탐구하는 방법론은 거의 없습니다. 따라서 기존 모델들은 다양한 글꼴과 불규칙한 모양의 텍스트뿐만 아니라 흐릿하고 가려진 문자에서도 만족스러운 결과를 도출하는 데 어려움이 있습니다.

본 논문은 공간적 맥락을 문자 추론단계로 도입하기 위한 새로운 Graph-Based Textual Reasoning(GTR) 모델로 이 어려움을 해결합니다.

시각 인식 모델에서 인식되는 문자 인스턴스와 그들 사이의 파생 순서 관계를 고려하여, 저자는 먼저 Local-To-Global 의존성을 세우기 위해 Two-Level Graph를 설정합니다.

First Level에서, 각 캐릭터 인스턴스 내에서 픽셀들의 공간적 유사성에 기반해, 픽셀들에 대한 하위 그래프를 구성합니다.

Second Level에서 1-st Level 하위 그래프들은 각 그래프들의 Root 노드들에 연결함으로써 하나의 완전한 그래프로 병합됩니다. 이 완전한 그래프는 각 하위 그래프 내의 모든 노드들의 기하학적 중심을 표현합니다.

따라서, 문맥 추론과 캐릭터 시퀀스의 결합 분포를 최적화하기 위한 그래프 컨볼루션 신경망을 고안합니다.

본 논문이 제안한 GTR은 쉽게 추가 가능한 모듈(Easy-To-Plug-In Module)이며 다른 문맥 감각들(Context Modalities)과 원활하게 기능할 수 있습니다. 특히, GTR을 LM과 병렬적으로 두어 텍스트 추론을 위한 결합 특성(Joint Features)을 생성합니다.

고품질의 교차 감각 표현(Cross-Modality Representations)을 생성하기 위해, 본 논문은 상호 학습 프로토콜을 구성하여 LM과 GTR로부터 얻은 예측들 사이의 일관성을 강제합니다. 그리고 동적 결합 전략(Dynamic Fusion Strategy)을 채택하여 시각 특성과 언어적 특성을 깊게 조합합니다.

이러한 디자인에 기반하여, GTR은 언어 모델만 사용한 기존 표현 방법들과 비교해 텍스트 추론 성능을 굉장히 높일 수 있습니다.

위에서 언급된 모든 디자인들을 하나로 통합하여 S-GTR(Segmentation baseline with STR)이라는 프레임 워크를 제안합니다. 규칙적인 텍스트 자료와 불규칙한 텍스트 자료 모두 포함하며 여러 언어로 만들어진 여러 개의 데이터셋에서 S-GTR을 평가합니다. 실험적 결과는 S-GTR이 기존 방법론을 능가함을 보여주며, 6개의 벤치마크에서 SOTA 성능을 냄을 보였습니다.

본 연구의 3가지 기여는 다음과 같습니다.

새로운 그래프 기반 텍스트 추론 모델을 제안하여, 거친(Coarse) 공간 맥락을 가진 텍스트 시퀀스 예측을 정제합니다. 이는 기존 표현 방식 중 인기있는 언어 모델만 사용하는 추론 방법에 대한 보완적인 구조입니다.

GTR이 LM과 같이 작동할 수 있게, 상호 학습 프로토콜을 채용하고 동적 결합 전략을 제안하여 일관된 언어적,시각적 표현과 고품질의 공동 예측(Joint Prediction)을 생성합니다.

모든 구조를 하나의 통합된 프레임워크로 만듭니다(S-GTR). 광범위한(Extensive) 실험적 결과가 S-GTR이 규칙적-불규칙적 텍스트 인식 태스크와 영어와 중국어 문자에서 우월함을 보여 성공적으로 새로운 SOTA를 세웠음을 보여줍니다.

방법론

개요

S-GTR의 전체 프레임워크는 위 그림과 같습니다. 이 프레임워크는 하나의 Segmentation-Based VR 모델, 하나의 언어 모델, 그리고 본 논문에서 제안하는 GTR로 구성됩니다.

입력 이미지

\textbf{X}\in\mathcal{R}^{H\times W\times 3}

가 주어지면, Segmentation-Based VR은 문자 클래스 수

C

만큼의 차원을 가지는 Segmentation Map

\textbf{M}\in\mathcal{R}^{H\times W\times C}

을 생성합니다. Segmentation Map

\textbf{M}

은 예비(Preliminary) 텍스트 시퀀스 예측

\textbf{T}\in\mathcal{R}^{T\times C}

로 디코딩되며 언어적 맥락 벡터

\textbf{L}\in\mathcal{R}^{T\times C}

을 생성하기 위해 언어 모델에 의해 추가로 처리됩니다. 여기서

T

는 사전 정의된 출력 시퀀스의 최대 길이입니다.

본 논문에서 제안한 GTR은 언어 모델과 병렬적으로 쌓인(Stacked) 구조로, Segmentation Map

\textbf{M}

을 입력으로 받습니다.

먼저 맵

\textbf{M}

을 특성 정렬 모듈로 변환하여 정렬된 특성 벡터

\textbf{V}\in\mathcal{R}^{T\times H\times W\times C}

를 생성합니다. 이 특성 벡터

\textbf{V}

는

\textbf{T}

개의 어텐션 맵으로 구성되며, 기하학 특성과 텍스트 순서 정보 사이의 관계를 표현합니다.

그 다음, 각 어텐션 맵에 대한 하위 그래프를 구축합니다. 그리고 모든 하위 그래프들은 순차적으로 연결되어 하나의 전체 그래프가 됩니다. 이 그래프는 GCN으로 깊게(Deeply) 인코딩 되어 공간적 문맥 벡터

\textbf{S}\in\mathcal{R}^{T\times C}

를 생성합니다.

마지막으로, 거친(Coarse) 시퀀스 예측

\textbf{T}

, 언어적 문맥

\textbf{L}

, 그리고 공간적 문맥

\textbf{S}

는 동적 결합으로 결합되며 정제된 텍스트가 예측됩니다.

GTR

분할 맵

\textbf{M}

이 주어지면, Fully Convolutional Network(FCN)을 채용하여 문자 순서와 관련된 어텐션 맵 시리즈를 얻습니다. 그리고 이 어텐션 맵들을 사용해

\textbf{M}

을 Element-Wise Multiplication으로 주의(Attend)하여 정렬된 특성 텐서

\textbf{V}\in\mathcal{R}^{T\times H\times W\times C}

를 얻습니다.

정렬된 특성 텐서

\textbf{V}

에 기반하여, GTR은 먼저 모든 문자 인스턴스에 대한 하위 그래프들을 구축하고 하위 그래프들을 순차적으로 연결합니다. 그 후, 이 그래프는 GCN으로 인코딩되며 Pooling 연산으로 공간적 맥락을 생성합니다.

그래프 생성

정렬된 특성 텐서

\textbf{V}

로부터 2단계 그래프를 구축하여 Local-To-Global Dependency를 모델링 합니다.

먼저 1단계 하위 그래프 안에서 같은 문자에 속하는 픽셀들을 연결합니다.

i

번째 정렬된 특성 맵

V_i\in\mathcal{R}^{H\times W\times C}

에 대해, 시각 인식 모델로 예측한 텍스트 시퀀스의

i

번째 문자에 대한 같은 예측(Estimation)을 갖는 픽셀들을 선택합니다.

이 픽셀들은 하나의 집합

P_i=\{(x,y,R)_j\}

로 수집됩니다. 여기서

R

은

V_i

의

(x,y)

좌표의

C

차원 특성 벡터이며

j

는 픽셀 인덱스입니다.

x

y

R

의 평균인 Root 노드를 해당 집합에 추가합니다.

그 후,

x,y,R

을 각각 3개의 다른

1\times1

컨볼루션으로 임베딩하고

i

를 Sine & Cosine 함수로 임베딩함으로써 노드 특성 벡터

X_{i,j}

를 구축합니다. 이 4개의 임베딩 파트를 Concatenate하여 노드 특성을 형성합니다.

그 다음, 인접 행렬(Adjacent Matrix)은 노드 유사도에 따라 구축됩니다. 노드 유사도는 위치 유사도

E_p

와 특성 유사도

E_f

의 Product로 계산되어 다음과 같습니다.

여기서

p,q

는 집합

P_i

의 노드 2개 입니다. 위치 유사도

E_p

는 두 픽셀 사이의 유클리디언 거리 값에 음의 방향으로 비례하는 반면, 특성 유사도

E_f

는 픽셀 특성 사이의 코사인 유사도입니다.

E_p(p,q)

와

E_f(p,q)

의 곱은 노드

p

와

q

의 전반적인 유사도

E

가 됩니다.

그 후, Linkage Based Face Clustering Via Graph Convolution Network의 1-Hop 규칙을 사용해 인접 행렬

A_i

를 구축합니다.

V_i

의 각 노드를 Top-8의 큰 유사도를 가지는 다른 노드에 연결하고 1-Hop 클러스터를 벗어나 있는 노드에 대한 연결을 삭제합니다.

하위 그래프들

G_i(X_i,A_i)

를 구축한 후, 이 하위 그래프들을 각 하위 그래프들의 Root 노드들을 순차적으로 연결함으로써 2 단계 전체 그래프로 연결합니다. 완전체 그래프는

G(X,A)

로 표기됩니다.

공간적 맥락 추론

그래프

G(X,A)

가 주어지면, 그래프 컨볼루션 네트워크를 사용하여 2 단계 공간적 맥락 추론을 수행합니다.

첫 단계는 공간 추론입니다. 특성 행렬

X

와 인접 행렬

A

를 얻은 후, 그래프 컨볼루션 네트워크를 사용하여 변환된 노드 특성 행렬

Y

를 출력합니다. 이 처리 과정은 다음과 같습니다.

여기서

l

은 레이어 인덱스를 표기하며,

L

은 2이고,

X(l)\in\mathcal{R}^{N\times d_i}, Y(l)\in\mathcal{R}^{N\times d_o}

이며,

d_i

와

d_o

는 입력과 출력 노드 특성의 차원입니다. 그리고

N

은 노드의 수입니다.

[;]

은 Concatenation을 표기합니다.

W^l

은 특정 레이어 용 학습 가능한 가중치 행렬입니다.

\sigma

는 비선형 활성화 함수이며,

K

는 Semi-Supervised Classification With Graph Convolutional Networks에 따라 계산된

N\times N

크기의 집계 함수입니다.

X^{l+1}=Y^l

은 출력 특성 행렬

Y^l

이 (

l+1

)번째 레이어의 입력으로 사용된다는 뜻입니다.

공간적 추론 이후, 문맥적 추론을 수행합니다. 위에서 언급한 그래프 컨볼루션 네트워크로부터 얻은 출력 그래프 특성 행렬을

X^l_c

로 표기하면서,

X_c^l

에 기반하여 새로운 인접 행렬

A_c

를 계산합니다.

그 후, Eq.(5)에 따라

A_c

에 기반하여

G

를 계산합니다. 그 다음 그래프 컨볼루션 네트워크를 사용하여 변환된 노드 특성

Y_c^l

을 다음과 같이 출력합니다.

여기서

W_c^l

은 특정 레이어 용 학습 가능한 가중치 행렬입니다.

그 다음, Root 노드 확인(Check)을 수행하여 선택된 Root 노드가 기저(Underlying)의 믿을 수 있는 Root 노드인지 확실히 합니다. 즉, 문자 인스턴스의 중심인지 확인합니다.

이러한 방식으로, 다음 기준을 충족함으로써 가까운 쉬운 노드와 원거리의 어려운 노드 사이의 균형을 잡을 수 있습니다.

여기서 s는 Root 노드로 무작위로 선택된 노드이고 r은 항상 문자의 중심이라는 점에서,

G_r

과

G_s

는 같은 문자의 하위 그래프 2개입니다.

G_r\cap G_s

와

G_r \cup G_s

는 각각 1-Hop 이웃의 교집합과 합집합입니다. 실험을 통해

\epsilon

은 0.75로 설정됩니다.

그 다음, 판독(Readout) 레이어를 사용하여 노드 특성들을 고정 크기 표현으로 집계합니다.

이 레이어의 출력 특성은 다음과 같이 계산됩니다.

여기서

x_j^*

는

j

번째 노드의 업데이트된 특성이며, 이는 Eq.(8)을 따라 계산되었습니다. 즉, 재귀적인(Recursive) 방법으로 계산됩니다.

N(x_i)

는 노드

i

의 이웃 노드 집합을 표기합니다.

업데이트 된 노드 특성들을 얻은 이후, Root 노드로부터 거리가 먼 50%의 노드들을 버립니다. 즉, 그래프를 Pooling하여 더 작은 새로운 그래프로 만듭니다.

특성 업데이트와 Pooling 처리를 하위 그래프 내에 오직 하나의 노드만 남을 때까지 순환적으로 반복합니다.

마지막으로, 노드 시퀀스의 특성 표현들은 분류를 위해 선형 레이어로 전달됩니다. 그래프 컨볼루션 네트워크를 최적화하기 위해 Softmax Cross-Entropy Loss를 채택합니다. 역전파(Back Propagate)는 학습 중 1-Hop 이웃 안에 있는 노드들의 Gradient에만 진행합니다.

S-GTR

LM을 가지고 있는 인기있는 Segmentation-Based VR 모델에 본 논문의 GTR을 통합하여 S-GTR이라는 간단한 베이스라인을 만듭니다. VR 모델은 On Vocabulary Reliance In Scene Text Recognition의 구조를 따라 만들어졌으며, LM 모델은 SRN 기반으로 만들어졌습니다. 다양체(Manifold) 학습 전략을 고안하여 GTR이 STR 태스크를 더 잘 돕도록 만듭니다.

문맥 일관성

본 논문은 2개의 다른 추론 특성인 언어적(Linguistic) 문맥과 공간적(Spatial) 문맥을 가집니다. S-GTR이 한 가지 특성에만 과하게 의존하는 것을 방지하고, 애매한 결과를 생성하는 일관적이지 않은 추론 단서를 피하기 위해, 저자는 상호 학습 전략을 제안하여 두 가지 타입의 문맥 특성 사이의 일관성을 강제합니다.

LM으로부터 얻은

\textbf{L}

과 GTR로부터 얻은

\textbf{S}

사이의 Kullback Leibler(KL) Divergence를 계산합니다.

동적 결합

다수의 도메인으로부터 얻은 정보들을 결합하기 위해 동적 결합 모듈을 사용하는 RobustScanner: Dynamically Enhancing Positional Clues For Robust Text Recognition를 따라서, VR, LM, GTR의 세 가지 다른 텍스트 시퀀스를 결합하기 위해 동적 결합 모듈을 S-GTR에서 확장합니다. 공식적으로는 다음과 같습니다.

여기서

\textbf{T}_i,\textbf{L}_i,\textbf{S}_i

는

i

번째 문자에 대한 예측 벡터들입니다.

W_0,W_1

은 2개의 학습 가능한 선형 변환이며

\odot

은 Element-Wise Multiplication 연산입니다.

Z_i

는

i

번째 문자에 대한 S-GTR의 최종 출력입니다.

Mean Teacher-Based Syn-To-Real Adaptation

합성과 현실 데이터셋을 학습시에 사용할 때 생기는 도메인 이동(Domain Shift) 문제를 완화하기(Mitigate) 위해, 저자는 도메인 적응(Domain Adaptation) 부분에서 인기있는 Mean Teacher Framework을 사용합니다. 분할 기반 VR 모델(즉, 학생 네트워크)과 동일한 아키텍처를 가진 교사 네트워크가 구축되고 그 가중치는 학생 네트워크의 모델의 지수 이동 평균(Exponential Moving Average)입니다.

손실 함수

전반적인 Loss는 3가지 파트를 포함합니다. 시퀀스 예측 손실

\mathcal{L}_{Seg}

, LM-GTR 일관성 손실

\mathcal{L}_{CC}

, 그리고 Mean-Teacher Training Loss

\mathcal{L}_{MT}

의 조합은 다음과 같습니다.

\mathcal{L}_{Seg}

는 문자 분류를 위한 Cross-Entropy Loss와 순서 분할(Order Segmentation)을 위한 Smooth L1 Loss를 포함합니다.

\mathcal{L}_{CC}

는 문맥 일관성을 위한 KL Loss입니다.

\mathcal{L}_{MT}

는 교사와 학생 네트워크로부터 얻은 Segmentation Maps에 대한 MSE Loss입니다.

\lambda_{Seg},\lambda_{CC}

는 둘다 1.0으로 설정되며

\lambda_{MT}

는 학습 과정에서 합성 데이터를 사용할 때만 1.0으로 설정됩니다. 정확한 특성 표현을 얻은 후,

\lambda_{MT}

는 점차 0으로 줄어듭니다.

실험

실험 세팅

데이터셋

두 개의 합성 데이터셋인 SynthText(ST)와 MJSynth(MJ)와 현실 데이터 셋(R)을 학습시에 사용합니다. 학습된 모델을 6개의 벤치마크(ICDAR2013, IIIT5K, SVT, ICDAR2015, SVTP, CUTE)에서 시험합니다.

평가지표는 Standard Word Accuracy입니다.

구현 상세

ADAM 최적화기로 2개의 합성 데이터셋에 6에폭으로 모델을 학습시킨 후, 실제 데이터셋으로 전이(Transferred)하여 2에폭 더 학습시킵니다.

전체 배치 크기는 256이며 4개의 NVIDIA V100 GPUs에 균일하게 분포시킵니다.

합성 데이터셋으로 진행한 사전학습 단계에서, 학습률은 0.001로 설정되어 4번째 에폭과 5번째 에폭에서 1/10으로 줄입니다.

그 후, Mean Teacher Training Framework를 남은 2에폭에서 실제 데이터셋으로 활용합니다.

본 논문의 모델은 63가지의 문자를 인식하며, 이는 “0-9”, “a-z”, “A-Z”를 포함합니다.

출력 시퀀스

T

의 최대 디코딩 길이는 25로 설정됩니다.

원본 이미지의 너비를 64, 128, 192, 256의 4가지 규모로 무작위하게 Resizing하며

64\times256

해상도에 맞게 이미지를 패딩하는 표준 이미지 전처리 과정을 따릅니다.

Random Rotation, Perspective Distortion, Motion Blur, Gaussian Noise를 이미지에 추가하기 등의 여러 데이터 어그멘테이션 전략을 사용합니다.

성능 분석

SOTA와 비교

위 표는 S-GTR과 다른 SOTA 모델의 Recognition Accuracy를 비교한 내용입니다. S-GTR이 가장 높은 Recognition Accuracy를 달성하였고, 두 번째 베스트 모델인 PREN2D보다 추론 속도가 3배 더 빠른 것을 알 수 있습니다.

학습에 현실 데이터(R)가 활용되었을 때, S-GTR이 6개의 벤치마크에서 인상적인 결과를 내었고, 텍스트 추론과 현실 데이터의 이점에 대한 S-GTR의 효과를 평가했습니다.

다른 모델에 GTR 삽입

GTR의 효과를 더 입증하기 위해, 저자는 GTR 모듈을 4개의 대표적인 STR 방법론, CTC 기반 방법론, 1D 어텐션 기반 방법론, 2D 어텐션 기반 방법론, 트랜스포머 기반 방법론들에 삽입했습니다.

1D 어텐션 기반 방법론에서, 시각 인식 모델의 예측 결과는 1D Semantic Vector입니다. 따라서 Prediction Layer 이전의 레이어에서 2D Feature Map을 Feature Ordering 후 GTR의 입력으로 사용합니다.

GTR 사용 이후, 모든 모델의 성능은 전부 개선되었음을 위 표에서 볼 수 있습니다. 모든 테스트 셋에서의 Average Recognition Accuracy는 CRNN 3.77&, TRBA 3.20%, SRN 2.78%, Based2D 1.69%, ABINet-LV 1.65%씩 증가했습니다.

따라서 GTR이 일반적인 모델들과 호환이 가능하다는 것을 알 수 있습니다.

소거 분석

S-GTR의 소거 분석 결과

소거 분석에서 사용된 모든 모델들은 모두 S-GTR과 같은 학습 환경을 사용했습니다. S-GTR의 각 모듈의 영향을 확인하기 위해, 먼저 LM과 GTR 모두 사용하지 않은 VR 베이스라인 모델을 학습시킵니다. LM과 GTR 없이 VR 베이스라인 모델은 성능 하락이 심한 것을 알 수 있습니다.

베이스라인과 비교하여, LM을 사용한 모델은 3.45%의 성능향상이 있었는데, 이는 텍스트 추론에 대한 전역 언어적인 텍스트 단서(Global Linguistic Textual Cues)를 제공하고 언어적으로 인정하기 어려운 예측(Implausible Predictions)을 수정하기 때문입니다.

본 논문이 제안한 GTR 모듈은 시각적-공간적 문맥 정보를 활용하여 VR 모델의 출력을 정제하기 때문에 Average Accuracy를 4.06% 증가시켰습니다.

LM과 GTR을 동시에 사용하면 90.96%라는 The Best Average Performance를 얻을 수 있습니다.

이 두 가지 모듈 둘 다 베이스라인에 대한 성능 개선에 기여한다는 것을 통해 언어적 단서와 공간적 문맥이 상호 보완적이라는 것을 알 수 있습니다. 그리고 또한 GTR이 LM보다 더 많은 이득(Gain)을 가져온다는 것을 알 수 있습니다.

위 표와 Table 2의 마지막 행은 두 가지 모듈을 서로 상호 학습(Mutual Learning)을 한 것과 상호 학습을 하지 않은 것의 차이입니다. 이 결과를 통해 상호 학습, 즉, LM과 GTR로부터 얻은 문맥 특성 사이의 일관성을 강제하는 것이 반드시 필요하다는 것을 알 수 있습니다.

다른 모델에 대한 질적 분석(Qaulitative Analysis)을 위해, 몇가지 테스트 이미지와 이에 대한 여러 모델의 텍스트 예측을 보여줍니다. 예측 결과의 가장 위는 기본 VR 모델의 결과이며, LM을 가진 VR 모델의 결과는 중간 위치, 제일 아래의 예측 결과는 S-GTR의 결과입니다.

베이스라인과 비교하여 LM이 전역 언어적 문맥을 활용하여 몇 가지 잘못된 예측을 수정해주는 것을 알 수 있습니다. 하지만 여전히 임의 텍스트와 애매한 케이스에 대해서는 일반화가 잘 되지는 않았습니다.

LM을 가진 모델과 S-GTR을 비교하면, S-GTR이 다른 글꼴, 스케일, 방향 그리고 모양이 다른 불규칙적인 텍스트에 대해 만족할만한 결과를 보여줍니다. 이는 언어적 단서와 공간적 문맥을 활용하여 더 나은 텍스트 추론 능력을 가졌기 때문입니다.

GTR 속 다른 세팅의 영향

첫 단계에서의 GCN 층의 수, 인접 행렬의 다른 Value Types, 그리고 다른 Pooling 전략을 통해 GTR의 성능을 비교합니다.

GCN 층의 수가 늘어남에 따라, 인식 정확도, 파라미터 수, 추론 속도 모두 증가하였습니다.

인식 정확도와 모델 복잡도 사이의 Trade-Off를 잡기 위해 저자는 2 Layers를 기본 설정으로 사용합니다.

인접 행렬의 데이터 타입으로 Continuous Values를 사용하는 것은 Discrete Values를 사용하는 것에 비해 전혀 이득이 없었으나 오히려 추론 속도만 7.98% 증가하였습니다. 따라서 Discrete Value를 기본 설정값으로 사용합니다.

Pooling 전략은 Graph Pooling과 Average Pooling을 비교합니다. 결과를 보면 Graph Pooling이 Average Pooling 보다 성능이 뛰어납니다. 왜냐하면 Graph Pooling은 Local-To-Global Dependency를 포착하기 때문입니다.

따라서 Graph Pooling을 기본 설정으로 사용합니다.

결합 전략의 영향

LM의 언어적 문맥과 GTR의 공간적 문맥을 결합하는 전략을 분석합니다. Dynamic Fusion과 Element-Wise Sum 그리고 Concatenation을 비교합니다.

위 표를 보면 Concatenation Fusion 전략이 Element-Wise Addition 보다 더 나은 성능을 보이지만, Dynamic Fusion보다 성능이 뒤쳐짐을 알 수 있습니다.

이러한 이점은 다른 두개의 Non-Parametric 케이스에는 없는 Learnable Fusion Weights로부터 얻어지는 것이라 저자는 생각하고 있습니다.

추가적인 시각화 및 분석

시각적 분석 결과

질적 분석을 위해, VR, GTR, 그리고 S-GTR의 끝에서 두번째 층(Penultimate Layer)로부터 얻은 특성 맵을 시각화합니다.

VR의 특성 맵과 비교햐여, GTR의 특성맵은 타겟 문자에서 더 강하게 활성화 되어있습니다. 이는 공간적 맥락의 텍스트 추론 때문입니다.

S-GTR의 특성맵은 GTR의 특성맵보다 타겟 문자를 더 정밀하게 커버하고 있음을 알 수 있습니다.

이 결과는 S-GTR이 타겟 문자에 주의(Attending)하고 관련없는 정보를 버림으로써 구별되는 특성(Discriminative Features)를 더 학습할 수 있음을 암시합니다.

다른 언어 모델에 대한 GTR의 호환성

GTR과 LM의 호환성을 더 분석하기 위해, GTR을 다른 LM을 가진 베이스라인 VR 모델에 적용합니다. 여기서 LM은 FastText와 BERT입니다.

위 표를 보면 GTR이 FastText와 BERT에서 일관적인 이득에 기여함을 알 수 있습니다.

또한 더 나은 LM을 GTR과 함께 사용하면 Text Recognition 성능을 개선할 수 있습니다.

결론

본 논문은 장면 텍스트 인식 태스크를 위한 기본 시각 인식 모델로부터 얻은 시각적 의미에 기반한 텍스트 추론 수행에 대한 아이디어를 제안합니다.

이는 그래프 기반 텍스트 추론 모델(Graph-based Textual Reasoning;GTR)로, 기존 대표적인 방법론에 쉽게 적용 가능한 모듈입니다.

6개의 STR 벤치마크에 대한 실험적 결과는 GTR이 다른 SOTA STR 모델 타입들에 쉽게 적용가능하며 인식 성능을 더 개선한다는 것을 보여줍니다.

구현체가 나온다면 Lomin의 Recognition 모델로 실험해볼만한 가치가 있다고 생각합니다.