๐ก ๋ณธ ๋ฌธ์๋ '[2D Vision] ์ฐ์ธ YAI ๊ธฐ์ด์ฌํCV: Transformer & Vision Transformer'์ ๋ํด ์ ๋ฆฌํด๋์ ๊ธ์ ๋๋ค.
ViT๋ฅผ ํ์ตํ๊ธฐ ์ํ Transformer์ ๊ธฐ์ด์ ๋ชจ๋ ๊ตฌ์ฑ ๋ฐ ViT์ ํต์ฌ์ ์ธ ๋ถ๋ถ์ ๋ํด ์ ๋ฆฌํ์์ผ๋ ์ฐธ๊ณ ํ์๊ธฐ ๋ฐ๋๋๋ค.
1. Transformer (Attention Is All You Need, 2017)
Background
Transformer๋ 2017๋ ๋ฐํ๋ “Attention Is All You Need” ๋ ผ๋ฌธ์์ ์ฒ์ ์ ์๋ ๋ชจ๋ธ๋ก,
- ๊ธฐ์กด์ RNN ๊ธฐ๋ฐ ๋ชจ๋ธ์ด ๊ฐ์ง๋ ์์ฐจ ์ฒ๋ฆฌ ๊ตฌ์กฐ์ ํ๊ณ์ Vanishing Gradient ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ๊ณ ์๋์์ต๋๋ค. RNN์ ์์ฐจ์ ์ผ๋ก ๋ฐ์ดํฐ๋ฅผ ์ฒ๋ฆฌํ๊ธฐ ๋๋ฌธ์ ๋ณ๋ ฌํ๊ฐ ์ด๋ ต๊ณ , ์ ๋ ฅ ๊ธธ์ด๊ฐ ๊ธธ์ด์ง์๋ก ๊ณผ๊ฑฐ ์ ๋ณด๊ฐ ์ฌ๋ผ์ง๋ ๋ฌธ์ ๊ฐ ์์ต๋๋ค.
- CNN์ ๋ณ๋ ฌ ์ฒ๋ฆฌ๊ฐ ๊ฐ๋ฅํ์ง๋ง ์ง์ญ์ ํน์ฑ ๋๋ฌธ์ ๋ฉ๋ฆฌ ๋จ์ด์ง ์์น ๊ฐ์ ์์กด์ฑ ํ์ต์ด ์ด๋ ต์ต๋๋ค.
์ด๋ฌํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด Transformer๋ Attention ๋ฉ์ปค๋์ฆ๋ง์ ์ด์ฉํด ์ํ์ค ๋ฐ์ดํฐ๋ฅผ ์ฒ๋ฆฌํ๋ฉฐ, ๋์ ์ ํ๋, ๋ฐ์ด๋ ๋ณ๋ ฌํ, ๋น ๋ฅธ ํ์ต ์๋๋ฅผ ์ ๊ณตํฉ๋๋ค.
Methods
Transformer๋ Encoder์ Decoder๋ก ๊ตฌ์ฑ๋๋ฉฐ, ๊ฐ ๋ถ๋ถ์ ๋์ผํ ๋ ์ด์ด๋ฅผ ์์ ํํ๋ก ์ด๋ฃจ์ด์ง๋๋ค. Encoder๋ Multi-Head Self-Attention๊ณผ Position-wise Feed-Forward ๋คํธ์ํฌ๋ฅผ ํฌํจํ๊ณ , Decoder๋ ์ฌ๊ธฐ์ Masked Multi-Head Attention์ ์ถ๊ฐํฉ๋๋ค. ์ ๋ ฅ ํ ํฐ์ Embedding Layer๋ฅผ ํตํด ๊ณ ์ ๋ ์ฐจ์์ ๋ฒกํฐ๋ก ๋ณํ๋๊ณ , Positional Encoding์ด ์ฌ์ฉํ์ฌ ์์ ์ ๋ณด๋ฅผ ์ถ๊ฐํฉ๋๋ค. ์ถ๋ ฅ์ Softmax Linear Transformation์ ํตํด ๋ค์ ํ ํฐ์ ํ๋ฅ ๋ก ๋ณํ๋ฉ๋๋ค.
Transformer์ ํต์ฌ ๋ชจ๋์ ๋ค์๊ณผ ๊ฐ์ 3๊ฐ์ง ์ ๋๋ค.
- Scaled Dot-Product Attention: Query, Key, Value ๋ฒกํฐ ๊ฐ ์ ์ฌ๋๋ฅผ ๊ณ์ฐํ๊ณ , ์ด๋ฅผ Softmax๋ฅผ ํตํด ๊ฐ์คํฉํ์ฌ Context-awareํ ๋ฒกํฐ๋ฅผ ์์ฑํฉ๋๋ค.
- Multi-Head Attention: ์ฌ๋ฌ ๊ฐ์ Attention Head๋ฅผ ๋ณ๋ ฌ๋ก ํ์ต์์ผ ์๋ก ๋ค๋ฅธ ํํ ๊ณต๊ฐ์์ ์ ๋ณด๋ฅผ ์ถ์ถํ ์ ์๊ฒ ํ๋ฉฐ, ์ด๋ฅผ ๊ฒฐํฉํด ๋ ํ๋ถํ ์ ๋ณด๋ฅผ ์ ๊ณตํฉ๋๋ค.
- Self-Attention: ๋์ผํ ์ํ์ค ๋ด์์ ๋ฌธ๋งฅ์ ๋ฐ์ํ๋๋ก ํ๊ณ , Encoder-Decoder Attention์ Decoder๊ฐ Encoder๋ก๋ถํฐ ์ ๋ณด๋ฅผ ํจ๊ณผ์ ์ผ๋ก ๊ฐ์ ธ์ต๋๋ค. ๋ํ, ๋ฏธ๋ ์ ๋ณด๋ฅผ ์ฐธ์กฐํ์ง ์๋๋ก Decoder์์๋ Masked Attention์ ์ ์ฉํฉ๋๋ค.
2. Vision Transformer: An Image is Worth 16x16 Words (ViT, 2021)
Vision Transformer(ViT)๋ ์ด๋ฏธ์ง๋ฅผ ์ผ์ ํฌ๊ธฐ์ ํจ์น๋ก ๋ถํ ํ๊ณ , ๊ฐ ํจ์น๋ฅผ ํ๋์ ํ ํฐ์ผ๋ก ๊ฐ์ฃผํ์ฌ Transformer์ ์ ๋ ฅํฉ๋๋ค. ์ด ๊ณผ์ ์์ ํจ์น๋ ์ ํ ๋ณํ์ ํตํด ์๋ฒ ๋ฉ๋๊ณ , ์์ ์ ๋ณด๋ฅผ ์ ์งํ๊ธฐ ์ํด Positional Encoding์ด ๋ํด์ง๋๋ค. ์ดํ Transformer Encoder ๋ธ๋ก์ ํตํด ํ์ต์ด ์ด๋ฃจ์ด์ง๋ฉฐ, ๊ฐ ๋ธ๋ก์ Multi-Head Self-Attention๊ณผ MLP, Residual Connection, Layer Normalization์ผ๋ก ๊ตฌ์ฑ๋ฉ๋๋ค.
ViT์ ๊ฐ์ฅ ํฐ ์ฅ์ ์ CNN๊ณผ ๋ฌ๋ฆฌ ์ ์ญ์ ์ธ ๋ฌธ๋งฅ ์ ๋ณด๋ฅผ ํจ๊ณผ์ ์ผ๋ก ํ์ตํ ์ ์๋ค๋ ์ ์ ๋๋ค. ๊ทธ๋ฌ๋ ๋๊ท๋ชจ ๋ฐ์ดํฐ์ ์ฐ์ฐ ์์์ด ํ์ํ๋ค๋ ๋จ์ ๋ ์กด์ฌํฉ๋๋ค. CNN์ ์ง์ญ ํจํด์ ๊ฐํ์ง๋ง ์ฅ๊ฑฐ๋ฆฌ ์์กด์ฑ ํ์ต์ด ์ด๋ ค์ด ๋ฐ๋ฉด, ViT๋ ์ฅ๊ฑฐ๋ฆฌ ์์กด์ฑ์ ์ฝ๊ฒ ํ์ตํ ์ ์์ด ๋๊ท๋ชจ ๋ฐ์ดํฐ์ ์์ ํนํ ๊ฐ๋ ฅํ ์ฑ๋ฅ์ ๋ฐํํฉ๋๋ค.
Discussion
- NLP์์๋ ๋จ์ด๊ฐ์ ์ ์ฌ๋๋ฅผ ๋ณด๋๋ฐ, ViT์์๋ Patch ๊ฐ์ ์ ์ฌ๋๋ฅผ ๋ณด๋ ๊ฒ์ธ๊ฐ?
- ๋ง๋ค.
- Positional Embedding์ ์ Learnableํ๊ฒ ๊ตฌ์ฑํ์ง?
- ๋จ์ํ patch์ ์์น์ ๋ณด ๋ฟ๋ง ์๋๋ผ Patch๋ค ๊ฐ์ ์ ์ฌ๋๋ ํ์ตํ๊ธฐ ์ํด์
- Transformer ๊ตฌ์กฐ๊ฐ ์ด๋ฏธ์ง๋์ ์ด์ธ๋ฆฌ์ง ์๋ ๋ชจ์ต์ ๋ณด์ผ ์ ์์ ๊ฑฐ ๊ฐ๋ค. ์ด๋ฅผ ์ด๋ป๊ฒ ํด๊ฒฐํด๋๊ฐ๊ณ ์๋๊ฐ?
- ์ผ๋ฐํ๊ฐ ๋ ์ข์์ง ๊ฐ๋ฅ์ฑ์ด ๋์๋ณด์ด๊ธฐ๋ ํ๋ค!
- transformer ์์ decoder๋ฅผ vit์ ๊ฒฐํฉ์ํค๋ฉด ์ด๋ฏธ์ง ์์ฑ๋ ๊ฐ๋ฅํ๊ฐ?
- ๊ฐ๋ฅํ๋ค. masked_vit model์ ํตํด์ mask ๋์ง ์์ ๋ถ๋ถ์ ํ์ต์ํค๊ณ ์ด๋ฅผ ์ถ๊ฐ๋ก
- class ํ ํฐ์ด ์ด๋ป๊ฒ ํด๋์ค์ ๋ํ ์ ๋ณด๋ฅผ ๋ด๊ณ ์์ง?
- class ํ ํฐ ๋ฟ๋ง ์๋๋ผ ๋ชจ๋ ํ ํฐ์ด ๋ชจ๋ ์ ๋ณด๋ฅผ ๋ด๊ณ ์์ ๊ฒ. ํ์ง๋ง ์ฟผ๋ฆฌํ๋ ๋ถ๋ถ์์…?
- class ํ ํฐ์ random ํ๊ฒ ์์๋์ด์ ์ฃผ๋ณ ์ ๋ณด๋ฅผ localํ๊ฒ ๋ณด์ง ์๊ณ , ์ ์ฒด์ ์ธ ํ๊ท
'Study: Artificial Intelligence(AI) > AI: 2D Vision(Det, Seg, Trac)' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
| [2D Vision] ์ฐ์ธ YAI ๊ธฐ์ด์ฌํCV: Generative Models (0) | 2025.08.19 |
|---|---|
| [Survey] Semantic 3D Reconstruction ๊ด๋ จ ๋ด์ฉ ์ ๋ฆฌ (0) | 2025.08.13 |
| [2D Vision] ์ฐ์ธ YAI ๊ธฐ์ด์ฌํCV: YOLO (6) | 2025.08.12 |
| [2D Vision] ์ฐ์ธ YAI ๊ธฐ์ด์ฌํCV: R-CNN, Faster R-CNN (4) | 2025.08.04 |
| [2D Vision] 2D Point Tracking: co-tracker ์ฌ์ฉ๋ฒ (0) | 2025.04.24 |