[2D Vision] 연세 YAI 기초심화CV: Transformer & Vision Transformer

💡 본 문서는 '[2D Vision] 연세 YAI 기초심화CV: Transformer & Vision Transformer'에 대해 정리해놓은 글입니다.
ViT를 학습하기 위한 Transformer의 기초와 모듈 구성 및 ViT의 핵심적인 부분에 대해 정리하였으니 참고하시기 바랍니다.

1. Transformer (Attention Is All You Need, 2017)

Background

Transformer는 2017년 발표된 “Attention Is All You Need” 논문에서 처음 제안된 모델로,

기존의 RNN 기반 모델이 가지는 순차 처리 구조의 한계와 Vanishing Gradient 문제를 해결하기 위해 고안되었습니다. RNN은 순차적으로 데이터를 처리하기 때문에 병렬화가 어렵고, 입력 길이가 길어질수록 과거 정보가 사라지는 문제가 있습니다.
CNN은 병렬 처리가 가능하지만 지역적 특성 때문에 멀리 떨어진 위치 간의 의존성 학습이 어렵습니다.

이러한 문제를 해결하기 위해 Transformer는 Attention 메커니즘만을 이용해 시퀀스 데이터를 처리하며, 높은 정확도, 뛰어난 병렬화, 빠른 학습 속도를 제공합니다.

Methods

Transformer는 Encoder와 Decoder로 구성되며, 각 부분은 동일한 레이어를 쌓은 형태로 이루어집니다. Encoder는 Multi-Head Self-Attention과 Position-wise Feed-Forward 네트워크를 포함하고, Decoder는 여기에 Masked Multi-Head Attention을 추가합니다. 입력 토큰은 Embedding Layer를 통해 고정된 차원의 벡터로 변환되고, Positional Encoding이 사용하여 순서 정보를 추가합니다. 출력은 Softmax Linear Transformation을 통해 다음 토큰의 확률로 변환됩니다.

Transformer의 핵심 모듈은 다음과 같은 3가지 입니다.

Scaled Dot-Product Attention: Query, Key, Value 벡터 간 유사도를 계산하고, 이를 Softmax를 통해 가중합하여 Context-aware한 벡터를 생성합니다.
Multi-Head Attention: 여러 개의 Attention Head를 병렬로 학습시켜 서로 다른 표현 공간에서 정보를 추출할 수 있게 하며, 이를 결합해 더 풍부한 정보를 제공합니다.
Self-Attention: 동일한 시퀀스 내에서 문맥을 반영하도록 하고, Encoder-Decoder Attention은 Decoder가 Encoder로부터 정보를 효과적으로 가져옵니다. 또한, 미래 정보를 참조하지 않도록 Decoder에서는 Masked Attention을 적용합니다.

2. Vision Transformer: An Image is Worth 16x16 Words (ViT, 2021)

Vision Transformer(ViT)는 이미지를 일정 크기의 패치로 분할하고, 각 패치를 하나의 토큰으로 간주하여 Transformer에 입력합니다. 이 과정에서 패치는 선형 변환을 통해 임베딩되고, 순서 정보를 유지하기 위해 Positional Encoding이 더해집니다. 이후 Transformer Encoder 블록을 통해 학습이 이루어지며, 각 블록은 Multi-Head Self-Attention과 MLP, Residual Connection, Layer Normalization으로 구성됩니다.

ViT의 가장 큰 장점은 CNN과 달리 전역적인 문맥 정보를 효과적으로 학습할 수 있다는 점입니다. 그러나 대규모 데이터와 연산 자원이 필요하다는 단점도 존재합니다. CNN은 지역 패턴에 강하지만 장거리 의존성 학습이 어려운 반면, ViT는 장거리 의존성을 쉽게 학습할 수 있어 대규모 데이터셋에서 특히 강력한 성능을 발휘합니다.

Discussion

NLP에서는 단어간의 유사도를 보는데, ViT에서는 Patch 간의 유사도를 보는 것인가?
- 맞다.
Positional Embedding을 왜 Learnable하게 구성하지?
- 단순한 patch의 위치정보 뿐만 아니라 Patch들 간의 유사도도 학습하기 위해서
Transformer 구조가 이미지랑은 어울리지 않는 모습을 보일 수 있을 거 같다. 이를 어떻게 해결해나가고 있는가?
- 일반화가 더 좋아질 가능성이 높아보이기도 하다!
transformer 에서 decoder를 vit에 결합시키면 이미지 생성도 가능한가?
- 가능하다. masked_vit model을 통해서 mask 되지 않은 부분을 학습시키고 이를 추가로
class 토큰이 어떻게 클래스에 대한 정보를 담고 있지?
- class 토큰 뿐만 아니라 모든 토큰이 모든 정보를 담고 있을 것. 하지만 쿼리하는 부분에서…?
- class 토큰은 random 하게 시작되어서 주변 정보를 local하게 보지 않고, 전체적인 평균

저작자표시 비영리 변경금지 (새창열림)

'Study: Artificial Intelligence(AI) > AI: 2D Vision(Det, Seg, Trac)' 카테고리의 다른 글

[2D Vision] 연세 YAI 기초심화CV: Generative Models (0)	2025.08.19
[Survey] Semantic 3D Reconstruction 관련 내용 정리 (0)	2025.08.13
[2D Vision] 연세 YAI 기초심화CV: YOLO (6)	2025.08.12
[2D Vision] 연세 YAI 기초심화CV: R-CNN, Faster R-CNN (4)	2025.08.04
[2D Vision] 2D Point Tracking: co-tracker 사용법 (0)	2025.04.24

« 2026/04 »
일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30