Look Closer to Supervise Better: One-Shot Font Generation via Component-Based Discriminator

본 논문은 Component-Aware Module(CAM)이라는 모듈을 제안하여 글꼴 생성기가 더 세분된(Fine-Grained) 레벨에서 Content와 Style을 분리하도록 합니다.
Inc Lomin's avatar
Oct 11, 2022
Look Closer to Supervise Better: One-Shot Font Generation via Component-Based Discriminator
notion image
본 논문은 2022년 4월 30일에 아카이빙되었고 CVPR 2022에 수록되었습니다. 20일 전 Github Repo.가 개설되었지만 코드는 현재 올라와 있지 않습니다.

Abstract

notion image
notion image
소스 글자를 레퍼런스 스타일에 맞춰 글자를 생성
소스 글자를 레퍼런스 스타일에 맞춰 글자를 생성
본 논문은 Component-Aware Module(CAM)이라는 모듈을 제안하여 글꼴 생성기가 더 세분된(Fine-Grained) 레벨에서 ContentStyle을 분리하도록 합니다.
notion image
상대적으로 심플한 생성기에 대한 효과적인 Supervision을 수행하여 모델 최대 성능을 달성하고자 합니다. 전체 프레임워크는 적대적 학습(Adversarial Learning)으로 Component Level Supervision을 수행하여 놀라운 성과를 내었고, 이 모델을 Component-Guided GAN(CG-GAN)이라 부릅니다.

Introduction

Few-Shot 글꼴 생성의 이슈를 해결하기 위해 2가지 문제를 인식합니다. 1) 사람들은 무엇을 보고 글꼴 스타일을 인식하는가? 2) 사람들은 어떻게 학습하여 새로운 글자/글자체를 올바른 구조로 쓸 수(Write) 있는가?
notion image
위 그림으로 첫번째 질문(사람들은 무엇을 보고 글꼴 스타일을 인식하는가?)에 대해 설명합니다.
위 3 문장의 전반적인 구조는 비슷하기 때문에 획의 끝부분 모양, 코너의 날카로운 정도, 획의 두꺼운 정도, 필기 패턴의 묶음 등의 국소적 디테일들에 사람들은 집중합니다.
그리고 이러한 디테일들은 글자의 구성요소 레벨에서 나타납니다. 이러한 구성요소들(한글로 치면 초성, 중성, 종성)이 글꼴 스타일의 속성(기울어진 정도, 종횡비 등)을 전부 제공하진 않지만, 저자는 구성요소들이 Whole Character 모양보다 더 많이 글꼴 스타일을 결정한다고 합니다.
두번째 질문(사람들은 어떻게 학습하여 새로운 글자/글자체를 올바른 구조로 쓸 수 있는가?)에 대해서는, 사람들이 복잡한 글자체를 배울 때, 글자(Character)를 형성하는 구성요소들을 먼저 배운다고하는 강한 가정에서부터 시작합니다.
직관적으로, 글자체의 모든 구성요소를 올바르게 썼다면, 해당 글자체를 올바르게 얻었다고 할 수 있습니다. 위의 관찰에서 영감을 얻어, Few-Shot 글꼴 생성을 위한 직관적인 방법은 글꼴 스타일 속성 및 글자체 구조와 크게 상관관계가 있는 구성요소 정보를 활용하는 것입니다.
notion image
저자는 CG-GAN이라 불리는 새로운 Component-guided 생성 네트워크를 제안하며, 이 모델은 Few-Shot 글꼴 생성에 대한 새로운 관점을 보여줄 수 있습니다.
제안된 방법은 인간의 2가지 행동에서 영감을 받았습니다.
1) 사람들은 글꼴 스타일을 구분할 때 자연스럽게 구성요소들에 집중합니다.
2) 사람들은 글자의 구성요소들을 먼저 배우면서 새로운 글자체를 학습합니다.
위와 같은 인간 학습 방법은 Component-Aware Module(CAM)에 적용되었고, 스타일과 Contents 모두에 대해 Component 레벨에서 생성기를 Supervising합니다.
notion image
특히, CAM은 먼저 Component Extraction을 위해 어텐션 메커니즘을 사용하며, 이 메커니즘은 글자 생성과정에서 각 구성요소가 적절히 전이(Transferred)되었는지 확인하는 Loss 함수로써 작동합니다.
그 후, 구성요소 정보에 대응되는 학습된 Attention Maps를 사용하여 구성요소마다의 스타일 분류Realism Discrimination을 수행합니다.
마지막으로, 여러 개의 Component-level의 Discriminative 출력을 가지고, CAM은 역전파를 통해 생성기에게 더 세밀한 정보를 피드백합니다. 그러면서 생성기가 Component-level에서 동시에 3가지 중요한 관점에 집중하도록 돕습니다.
  • 1) 스타일 일관성, 2) 구조적 올바름, 3) 이미지 진품성(Authenticity)
따라서 생성된 글자체 이미지의 품질은 상당히 좋아집니다. CAM은 학습과정에서 Component-level Supervision으로서만 수행되기 때문에, 추론 과정에서 추가적인 연산 시간이 들지 않습니다.
추가적으로, 짝지어진 학습 데이터는 본 논문의 방식에서는 필요하지 않습니다. 모델이 학습되기만 하면, 논문의 생성기는 본 적 없는 스타일, 본 적 없는 Content, 심지어 본 적없는 언어의 글자체에 대해 일반성을 가집니다. 즉, Cross-lingual 글꼴 생성기가 가능해집니다.
기존의 Component 기반의 방법들과 비교하면, CG-GAN은 2가지 뛰어난 특성을 가집니다.
1) 생성기에 더 효과적인 지도방법을 제공하여 성능 개선을 이룹니다. 생성기의 복잡도를 늘리기 위해 빡센 엔지니어링을 하는 것이 아닙니다.
2) 생성기는 사전 정의된 구성요소 카테고리에 대한 명시적 종속성 없이 국소적 스타일 패턴을 캡쳐할 수 있습니다. 그러면서 뛰어난 One-Shot 중국어 글꼴 생성 및 다국적 글꼴 생성 능력을 보여줍니다.
notion image
notion image
또한 Component-level의 Guidance와 모델을 엮음으로써, CG-GAN은 다른 2개의 태스크로 확장이 가능합니다.
  • 필기체 생성(글자 단위를 넘어선 태스크)
  • 거리뷰 텍스트 편집

Image-to-Image Translation

I2I 번역은 Source 도메인의 입력 이미지를 Target 도메인의 대응되는 출력 이미지로 번역하는 것입니다.
notion image
그 유명한 Pix2Pix가 I2I 번역 태스크의 최초 프레임워크이며, 이 모델 이후에 여러 모델들이 등장했습니다.
notion image
그 유명한 CycleGAN은 Pix2Pix를 개발한 Berkeley AI Research에서 개발한 후속 모델이며, 한국분이 개발했습니다.
위와 같은 모델들은 2개의 클래스 간 이미지 번역으로 제한되며, 이 이휴에 나온 FUNIT 모델은 이를 일반화하여 본 적 없는 클래스들에 대해 이미지 번역을 수행합니다.

Few-Shot Font Generation

notion image
Few-Shot 글꼴 생성은 몇 개의 레퍼런스 글꼴의 스타일로 온전한 글꼴 라이브러리를 생성하는 것입니다.
이 태스크를 해결하기 위해서 I2I 번역이 사용되었으나, 본 적 없는 스타일에 대해 제한적이었습니다.
이후에 VAE를 사용해 스타일과 Content를 분리하는 작업이 진행되었는데, 이 또한 지역적인 스타일 패턴을 캡쳐하지 못해 실패했습니다.
시도된 모든 방법들은 지도학습 방법이며 강한 지도학습을 위해 짝지어진 학습 데이터가 필요합니다.
본 논문은 CG-GAN을 제안하여 구성요소 지도학습 방법을 채용하여 기존의 이슈들을 처리합니다.

Methodology

notion image
CG-GAN의 전반적인 구조는 위와 같습니다.
이 구조는 생성기 GComponent-Aware Module(CAM), 그리고 판별기 D로 구성됩니다.
생성기 G의 목표는 Component 레벨에서 스타일-컨텐츠 분리하는 것을 구현하는 것입니다. 이를 위해, CAM을 사용하여 Component 레벨의 피드백을 생성기에 제공합니다.
U-Net 기반의 판별기 D를 사용하여 Per-Image & Per-Pixel 판별을 수행합니다.

Generator

notion image
생성기는 스타일 인코더컨텐츠 인코더, 그리고 Mixer로 구성됩니다.
스타일 이미지 와 컨텐츠 이미지 가 주어지면 이미지 가 생성되며, 이 이미지는 의 글꼴 스타일을 가지면서 의 기저 구조를 유지합니다.
컨텐츠 인코더는 입력 컨텐츠 이미지를 스타일 불변의 컨텐츠 피쳐맵 로 인코딩합니다.
그러는동안 스타일 인코더는 2단계를 거쳐 스타일 레퍼런스 이미지로부터 스타일 표현을 추출합니다. 이 때 스타일 피쳐맵은 로 표현되며, 스타일 잠재 벡터는 로 표현됩니다.
는 스타일 레퍼런스 이미지로부터 추출되며, 후에 매핑 네트워크 에 의해 스타일 잠재 벡터 로 매핑됩니다. 이 매핑 네트워크는 Multi-Layer Perception(MLP)으로 구현됩니다.
Mixer는 스타일과 컨텐츠 표현을 통합하며 타겟 이미지를 재구축하는 역할입니다.
스타일 피쳐맵 와 컨텐츠 피쳐맵 는 같은 공간 차원을 가지며, Channel-wise 차원으로 Concatenated됩니다. 그 후 Mixer로 입력되게 됩니다.
그러는 동안, 스타일 잠재 벡터 는 AdaIN 연산을 통해 Mixer M의 각 Upsampling 블록에 주입됩니다.
AdaIN 레이어는 전이학습에서 자주 사용되는 레이어로, 컨텐츠 Feature의 Mean과 Variance를 스타일 Feature와 정렬합니다. Adaptive Instance Normalization이므로 역시 학습 파라미터가 없습니다.
추가적으로, 컨텐츠 인코더와 Mixer 사이에 Skip-Connection을 적용합니다. 즉, 컨텐츠 인코더의 각 Down Sampling 블록 출력이 Up Sampling 블록 입력에 Concatenated됩니다.

Component-Aware Module

notion image
직관적으로, 글자체 글꼴 스타일구조는 구성요소 정보와 밀접하게 관련되어있습니다. 하지만 대부분의 기존 방법들은 픽셀 레벨의 강한 지도학습을 채용하며 중요한 구성요소 정보를 무시합니다. 저자는 구성요소 정보를 완전히 사용하는 Component-Aware Module을 도입하여 글꼴 생성 과정을 더 잘 가이드합니다. CAM은 구성요소 레벨에서 다음의 전략들을 사용하여 생성기를 지도합니다.

Component Extraction

글꼴 생성에서 전제 조건은 타겟 글자체의 디테일한 구조를 보존하는 것입니다. 따라서 구성요소 추출 프로세스는 글자체 구조체가 올바르게 전이되었는지 감시하는 것입니다.
모든 중국어 글자체는 Depth-First Reading Order를 따르는 유니크한 구성요소 셋으로 분리될 수 있기 때문에, 저자는 구성요소 추출 프로세스를 직렬 문제(Sequential Problem)로 다룹니다.
notion image
CNN 기반의 피쳐 인코더 는 High-level의 시각 피쳐를 입력 이미지 로부터 추출합니다.
여기서 의 공간 차원을 가집니다.
따라서 인코더 출력 개의 Elements의 피쳐 벡터입니다. 여기서 각 Element -dimensional 벡터로, 입력 이미지에서 대응되는 영역을 표현합니다. 즉, 로 표현할 수 있습니다.
notion image
다른 Sequential 학습 방법과 비교하면, 어텐션 메커니즘이 본 논문의 의도에 잘 부합합니다. 이는 어텐션 메커니즘의 효율성과 쉽게 수렴하는 것 때문입니다. 따라서 저자는 어텐션 기반의 디코더 를 적용하여 구성요소 순서열을 생성합니다.
이는 로 표기되며 여기서 는 구성요소 시퀀스의 길이입니다.
디코더는 시퀀스 끝을 의미하는 토큰 “EOS”가 예측될 때까지 한번에 하나의 심볼을 예측합니다.
모든 타임 스텝 에서, 출력 는 다음과 같습니다.
여기서 는 타임 스텝 에서의 출력 벡터입니다. Gated Recurrent Unit(GRU)를 사용하여 를 Hidden State 에 따라 업데이트합니다.
여기서 는 Glimpse 벡터 와 이전 출력 의 임베딩 벡터를 Concatenation한 것입니다.
는 어텐션 메커니즘을 통해 계산됩니다.
여기서 는 학습 가능한 파라미터입니다. 는 입력 피쳐맵 의 i번째 피쳐 벡터를 나타냅니다.
약한 지도학습으로써 구성요소 레이블만을 사용하여, 어텐션 기반의 디코더는 Structure Retention Loss를 최소화함으로써 모든 구성요소의 위치를 특정할 수 있습니다.
notion image
는 다음과 같이 실제 샘플 로만 최적화됩니다.
여기서 는 타임 스텝 에서 대응되는 GT 구성요소 레이블을 나타냅니다.
notion image
위 그림에서 보이다싶이, 모든 타임 스텝 에서 디코더는 대응되는 구성요소 영역에 집중할 수 있습니다.
따라서 만약 구성요소 예측이 틀리면, 생성기 G는 잘못된 Structure Transfer에 대해 다음과 같이 페널티를 먹습니다.
이 방식으로, G는 구성요소 레벨에서 글자체 구조를 생성하도록 지도받습니다. 그리고 모든 구성요소를 올바르게 보존하도록 합니다.
기존 방식들은 Global Content 표현만 추출하는데, 이는 완전하지 않은 구조를 생성하게합니다. 본 논문은 이와 다르게 를 사용하여 컨텐츠 인코더 를 구성요소 레벨에서 지도하여, 콘텐츠 인코더가 적극적으로 로부터 컨텐츠 표현을 분리하도록 가이드합니다.
이 학습 방식은 엄청나게 많은 중국어 카테고리를 다루는 능력을 주며, 또한 복잡한 구조를 보존하는 능력을 줍니다.

Multi Component-level Discrimination

notion image
저자는 스타일 분류기 와 판별기 를 도입하여 구성요소 레벨의 판별을 수행합니다.
직관적으로, 다른 글꼴 스타일을 구분할 때 사람들은 자연스럽게 국소 부분과 구성요소에 집중하고, 전체 모양은 덜 집중합니다.
따라서 저자는 어텐션 맵 을 구성요소 영역의 레이블로써 활용하여 스타일 분류와 실제 판별을 수행합니다.

Loss Function

Adversarial Loss

notion image
생성기 G는 진짜같은 이미지를 합성합니다. 이를 위해, 저자는 U-Net 기반의 판별기를 채용합니다. 이 판별기의 인코더 파트 는 Per-Image 판별을 수행하며, 디코더 파트 는 Per-Pixel 판별을 수행합니다. 따라서 생성기는 적대적 Loss를 통해 모두를 속여야 합니다.
여기서 은 위치에서의 판별 출력을 나타냅니다. 저자는 를 0.1로 설정하여 실험합니다.

Style Matching Loss

구조의 올바름을 감시하기 위해 구조 유지 손실(Structure Retention Loss)을 사용하는 것에 추가적으로, 생성된 이미지는 Global과 Local 스타일 통일성을 유지해야합니다.
이를 위해 스타일 분류기 은 입력 이미지 전체에 스타일 분류를 수행하여 Global 스타일 통일성을 보장하며, 이 분류를 Per-Component Basis에 대해 수행하여 국지적 스타일 일관성을 측정합니다.
따라서 스타일 매칭 손실은 위의 2가지 관점을 동시에 고려합니다.
타임 스텝 에서의 2D 어텐션 맵 과 이에 대응되는 레퍼런스 스타일 이미지 스타일 레이블 이 주어지면, 스타일 매칭 손실은 다음과 같이 정의됩니다
여기서 는 Element-Wise Multiplication을 뜻합니다. 은 오직 실제 샘플 만 가지고 최적화를하고, 따라서 이 분류기가 생성기가 이미지를 레퍼런스 이미지 와 매우 닮은 글꼴 스타일인 와 비슷하게 합성하도록 가이드합니다. 따라서 생성기를 최적화하는 것은 다음의 식을 최소화하는 것과 대응됩니다.
본질적으로, 는 스타일 인코더 가 구성요소 레벨에서 스타일 표현을 Disentangle하도록 강제하는 것이므로, 따라서 스타일 인코더 가 다양한 국소 스타일을 캡쳐하면서 동시에 Global 스타일 통일성을 유지할 수 있도록 합니다.
즉, 는 강력한 스타일 인코더 를 만들게 되며, 이 인코더는 구성요소 레이블이 없이도 모든 레퍼런스 스타일 샘플 국소적 스타일 패턴을 정확하게 인코딩하게 됩니다.

Component Realism Loss

판별기 는 각 구성요소 패치를 진짜 혹은 가짜로 분류해내는 역할을 합니다. 더 나아가 의 시각적으로 정말 있을법하게(Verisimilitude) 구성요소 레벨에서 지도하며, 이는 다음과 같습니다.
이는 생성기가 생성된 글자체 이미지의 국소적 현실성에 더 집중하도록 돕습니다.

Identity Loss

Identity Loss는 생성기 G 안의 Identity Mapping을 보장합니다. 즉 생성기 G는 스타일 레퍼런스 이미지 가 컨텐츠 입력으로 들어왔을 때 스타일 레퍼런스 이미지 를 재구축할 수 있게 됩니다.
Identity Loss는 학습 과정을 특정한 정도까지 안정화시켜 과도한 스타일 전이를 막습니다.

Content Loss

컨텐츠 손실은 추출된 컨텐츠 표현 가 스타일 불변성임을 보장합니다.

Full Objective

마지막으로, CG-GAN의 판별기 D, Component-Aware Module CAM 그리고 생성기 G는 각각 다음과 같이 최적화됩니다.
전체 프레임워크는 스크래치부터 E2E 방식으로 학습됩니다.
저자는 를 10으로 설정하여 실험합니다.

Experiments

Chinese Font Generation

Datasets

본 논문의 방법을 평가히기 위해, 저자는 423개의 글꼴을 포함하는 데이터셋을 수집했습니다.
여기서 399개의 글꼴을 랜덤하게 선택하여 학습셋으로 사용하며, 여기서 각 글꼴은 285개의 구성요소로 분리될 수 있는 800개의 중국 글자를 포함합니다.
저자는 One-Shot 중국 글꼴 생성 능력을 2개의 테스트 셋에서 평가합니다.
하나는 399개의 본적있는 글꼴과, 글꼴마다 본 적 없는 글자 150개를 포함하는 테스트 셋입니다.
다른 테스트셋은 남은 24개의 본 적 없는 글꼴과, 글꼴마다 본 적 없는 200개의 글자를 포함합니다.
또한 추가적으로 24개의 본 적 없는 글꼴과, 글꼴마다 200개의 한국어 글자를 포함하는 한국어 글자체 테스트 셋을 사용하여 본 적 없는 언어 글자체에 대한 일반화 능력을 평가합니다.

Evaluation Metrics

정량 평가를 위해 여러 메트릭들을 사용합니다.
먼저 SSIM, RMSE을 사용하여 픽셀 레벨의 디테일이 보존되는지 아닌지를 측정합니다. 높은 SSIM과 낮은 RMSE는 생성된 이미지가 적은 이미지 왜곡을 가진다는 것을 나타냅니다.
두번째로 LPIPS를 사용하여 인지적 유사도(Perceptual Similarity)를 정량화 합니다. 낮은 LPIPS는 생성된 이미지가 사람의 시각적 인지와 일치함을 나타냅니다.
세번째로 FID를 사용하여 모델이 타겟 데이터 도메인 분포와 매칭되는지를 측정합니다. 낮은 FID는 생성된 이미지들이 높은 퀄리티와 높은 다양성을 가짐을 나타냅니다.
마지막으로 사용자 선호도 조사를 수행하여 출력 이미지의 주관적 퀄리티를 정량화합니다.
저자는 랜덤하게 30개의 본 적 있는 글꼴과 20개의 본 적 없는 글꼴을 2개의 중국어 글자체 테스트 셋에서 선택합니다. 각 테스트마다, 참가자에게 레퍼런스 스타일 이미지와 n개의 다른 방법으로 생성된 n개의 생성된 샘플을 보여줍니다. 그리고 최고의 결과를 뽑도록 합니다.
저자는 2,400개의 반응을 48명의 참가자로부터 수집했습니다.

Quantitative Comparison

notion image
LF-Font-eight-shot을 제외하면 모든 결과는 One-Shot 세팅에서 실험되었습니다. 위 표에서 보이다 싶이, CG-GAN이 본 적 있는 스타일과 본 적 없는 스타일 모두에 대해 모든 평가 지표에서 최고 성능을 냈습니다.

Qualitative Comparison

notion image
notion image
notion image
위 그림의 (a)와 (b)에서 본 적 있는 스타일과 본 적 없는 스타일을 시각적으로 비교합니다.
이는 CG-GAN의 사용자 선호도에서의 엄청난 차이를 직관적으로 보여줍니다.
(c)는 다국적 언어 글꼴 생성과 같이 본 적 없는 구성요소에 대한 일반화 능력을 테스트한 결과입니다. 강력한 표현 능력 덕분에, 본 논문의 모델은 우월한 다국적 언어 Few-Shot 글꼴 생성 성능을 보입니다.

Handwriting Generation

구성요소 레벨의 지도학습으로 모델을 학습시킴으로써, CG-GAN을 다른 튜닝 없이 손글씨 생성 태스크에 적용할 수 있습니다.
이를 평가하기 위해, 저자는 IAM 손글씨 데이터셋으로 실험했습니다. IAM 데이터셋은 500명의 다른 작성자로부터 얻은 9,862개의 텍스트 라인과 62,857개의 손글씨 단어로 구성됩니다.
본 논문에서는 학습셋과 평가 셋만 사용하여 모델을 학습시켰고, 테스트셋은 분리되어 평가만을 위해 사용했습니다.
공정한 비교를 위해 본 논문의 방법과 SOTA 손글씨 생성 방법을 2가지 시나리오에서 평가합니다.

Writer-relevant Handwriting Generation

작성자와 상관있는 시나리오로 먼저 평가를 진행합니다. 이 시나리오에서 각 작성자에 대해 실제 샘플과 이에 대응되는 생성된 샘플간 FID를 계산합니다. 그리고 모든 작성자에 대해 FID를 평균냅니다.
따라서 최종 FID 점수는 생성 품질과 스타일 모방 능력을 동시에 평가합니다.
HWT와 GANwriting을 베이스라인으로써 사용하며, 이는 레퍼런스 스타일로 이미지를 합성합니다. HWT는 트랜스포머 기반의 방법으로 임의의 길이 텍스트를 합성합니다. GANwriting은 10개 글자보다 적은 수의 짧은 단어 이미지를 생성합니다.
notion image
실험 세팅은 4가지입니다: IV-S, IV-U, OOV-S, OOV-U
1가지 경우를 제외하고 모두 SOTA 결과를 냈습니다.

Writer-irrelevant Handwriting Generation

작성자 무관 시나리오는 FID를 계산할 때 작성자의 Identity가 무시됩니다.
notion image
본 논문의 성능은 SOTA와 비견될만한 성능을 냅니다.
notion image
위 그림은 시각적 비교표입니다.

Ablation Study

소거법 연구를 통해 저자가 제안한 CAM의 효과와 구성요소 레벨의 지도학습의 효과를 연구합니다.

Effectiveness of the Component-level Supervision

구성요소 레벨에서의 지도학습과 일반적으로 사용되는 픽셀 레벨의 지도학습 그리고 글자 레벨의 지도학습을 비교합니다.
픽셀 레벨의 지도학습은 CAM을 제거하고 구성요소 레벨 목표를 L1 Loss로 대체함으로써 수행됩니다. 픽셀 레벨 지도학습은 같은 레퍼런스 스타일 이미지를 사용하는 짝지어진 데이터를 사용하여 학습합니다.
글자 레벨(Character-level) 지도학습은 구성요소 레이블을 글자 레이블로 대체함으로써 구현됩니다.
notion image
위 표에서 보이다싶이, 정량적 평가에서 구성요소 레벨의 지도학습 효과가 의미있다는 것을 입증했습니다.

Effectiveness of the Component-Aware Module

먼저 베이스라인에서 CAM 모듈을 제거하고 이를 이미지 레벨에서의 스타일 분류기로 대체합니다. 따라서 베이스라인은 더 이상 구성요소 레벨의 지도학습을 포함하지 않습니다.
그 후, 연속적으로 Multi-Component-Level Supervision의 다른 파트들을 더하고, 그 효과를 분석합니다. 이는 구조 유지 손실, 스타일 매칭 손실, 그리고 구성요소 현실성 손실을 포함합니다.
notion image
위 표는 해당 실험의 결과입니다. 관측을 통해 본 논문이 제안한 구성요소 레벨의 목적 함수는 모든 필수적이라는 것을 알 수 있습니다. 각 손실의 합이 시각적 품질과 정량적 결과를 모두 개선한다는 것을 알 수 있습니다.

Extension

notion image
저자의 프레임워크는 풍경 텍스트 편집(Scene Text Editing) 태스크로 확장될 수 있습니다.
기존 STE 방법들은 태스크를 2단계로 나눕니다.
먼저 타겟 텍스트 컨텐츠를 렌더링하여 Text-Modified Foreground를 얻습니다. 그리고 원본 텍스트를 지워 Text-Erased Background를 얻습니다.
마지막으로 이 두가지를 결합하여 원하는 타겟 이미지를 얻습니다.
하지만 이러한 2단계 방법론은 현실 세계의 풍경 텍스트 이미지에 잘 일반화되지 않는데 이는 Background와 Foreground 간의 강한 상호 침범(Mutual Interference) 때문입니다.
이와 대조적으로, 본 논문의 프레임워크는 구성요소 레벨의 지도학습을 통해 멀티 스테이지 렌더링을 버리고, Intervention 문제를 덜어냅니다.
위 그림에서 보이다 싶이, 본 논문의 프레임워크는 예상을 넘어서는 꽤 믿음직스러운 결과를 생성하며, 인상적인 잠재력이 있음을 보여줍니다.
구체적인 구현 디테일은 부록 A에 수록되어있습니다.

Conclusion

저자는 CG-GAN을 제안하여 One-Shot 글꼴 생성 태스크를 해결합니다.
CAM은 생성기를 지도하는 역할을 하며, 스타일과 컨텐츠를 미세 레벨에서 분리하여 생성기가 더 나은 표현을 만들도록 가이드합니다.
CG-GAN은 최초의 Few-Shot 글꼴 생성 방법으로, 손글씨 단어 생성과 풍경 텍스트 편집으로 확장될 잠재력을 가집니다.
 
Share article