XCiT: Cross-Covariance Image Transformers

Inc Lomin

Oct 29, 2021

XCiT: Cross-Covariance Image Transformers

Contents

개요 XCiT Experiment

개요

Vision Transformer의 문제점 중 하나인 이미지 크기에 따른 메모리 및 연산량 문제를 기존의 채널 단위의 Self-Attention을 수행함으로써 문제를 해결하는 XCiT 모듈을 제안하는 논문이다.

Motivation

Transformer는 고질적으로 Self-Attention을 하는 과정에서 메모리와 연산시간이 많이 요구되는 문제를 가지고 있다. Vision Transformer(ViT)의 측면에서 본다면, 이미지 크기가 커질수록 토큰의 수가 많아지게 되면서 메모리와 연산시간이 quadratic 하게 증가하기 때문에 고해상도 이미지에는 적용이 어렵다는 문제를 가지고 있다.

저자들은 이미지 크기에 따른 메모리 및 연산시간의 증가를 다루기 위해 Self-Attention을 토큰이 아닌 채널에 대해 적용하는 방법을 제안한다. 이 방법은 결과적으로 메모리와 연산시간이 이미지의 크기에 선형적인 영향만을 받도록 만들어준다.

Contribution

기존 토큰을 대상으로하는 Self-Attention 대신 채널 사이의 Attention을 계산하는 Cross-Covariance Attention(XCA)를 적용. 이를 통해 고해상도 이미지에 대해서도 효율적인 처리가 가능해짐

고정된 길이의 채널에 대해 Attention을 수행하게 되면서 이미지 크기와의 의존성을 줄임. 이미지 크기에 따른 성능 변화에 대해 더 robust 한 결과를 가질 수 있게됨

image classification 에서 state-of-the-art 모델과 비슷한 성능을 보여줌

object detection 에서 비슷한 크기의 모델과 비교했을 때 더 좋은 성능을 보여줌

XCiT

Background

Token Self-Attention (기존 방식)

Q=XW_q, K= XW_k, V = XW_v

A(K, Q) = Softmax(QK^T / \sqrt{d_k})

⇒ (N x d) x (d x N) ⇒ N x N ⇒

O(N^2d)

⇒ 각 토큰 사이의 covariance를 계산

Attention(Q, K, V) = A(K, Q)V

⇒ (N x N) x (N x d) ⇒ N x d ⇒

O(N^2d)

⇒ 토큰의 개수 N에 대해 quadratic 증가

XCiT

XCiT Layer는 총 3개의 모듈로 구성되어있으며, 각각 서로의 부족한 점을 보완해주는 역할을 한다.

Cross-Covariance Attention (XCA)

기존 Self-Attention을 대체하는, 토큰 사이의 관계 대신 채널 사이의 관계성을 계산하는 레이어

저자들의 가정은 특정 채널이 특정한 특징을 표현하는 역할을 수행하도록 학습하는것 (예: 어떤 채널은 눈을 표현하고, 어떤 채널은 입을 표현하는 것)

XCA의 방식을 요약하면 행렬 연산의 순서만 바꿔서 Attention의 대상을 변경한거라고 보면 된다.

A_{XC}(K, Q) = Softmax(\hat{K}^T\hat{Q}/\tau)

⇒ (d x N) x (N x d) ⇒ d x d ⇒

O(d^2N)

⇒ 각 채널 사이의 covariance를 계산

XC-Attention(Q, K, V) = VA_{XC}(K, Q)

⇒ (N x d) x (d x d) ⇒ N x d ⇒

O(d^2N)

⇒ 토큰의 개수 N에 대해 선형적으로 증가

Local Patch Interaction (LPI)

토큰 사이의 covariance를 계산하는 방식에서 채널 사이의 covariance를 계산하게 되면서 XCA에는 patch 사이의 명시적인 상관관계에 대한 정보가 부족하게 되었다. 이러한 정보를 포함시키기 위해 간단한 depth-wise convolution 레이어를 통과시킨다.

결과적으로 XCA + LPI 모듈이 기존 Self-Attention 모듈을 대체한다.

Feed-Forward Network (FFN)

feature 사이의 interaction을 표현할 수 있도록 만들어주는 역할을 수행한다.

Handling images of varying resolution

XCA 모듈은 covariance를 계산하는 과정에서 이미지의 해상도와 의존관계가 형성되지 않는다. 다시말하면, 어떠한 크기의 입력이 들어오더라도 동일한 크기의 출력을 낼 수 있게 된다. 이러한 특징은 이미지 해상도의 변화에 대해 robust 한 성능을 보여줄 수 있도록 만들어준다.