๐ก ๋ณธ ๋ฌธ์๋ 'Generative Models'์ ๋ํด ์ ๋ฆฌํด๋์ ๊ธ์ ๋๋ค.
๋ณธ ๋ณด๊ณ ์๋ VAE(Variational AutoEncoder), GAN(Generative Adversarial Network), Diffusion Model ๋ฑ ์ต๊ทผ ๊ฐ๊ด๋ฐ๊ณ ์๋ ๋ค์ํ ์์ฑ ๋ชจ๋ธ์ ์๋ฆฌ, ๊ตฌ์กฐ, ๊ทธ๋ฆฌ๊ณ ์์ฉ ๋ถ์ผ๋ฅผ ์ฌ๋ ์๊ฒ ๋ค๋ฃจ๊ณ ์์ต๋๋ค.
Introduction: ์๋ก์ด ๋ฐ์ดํฐ์ ์ฐฝ์กฐ์๋ค
์์ฑ ๋ชจ๋ธ์ ์ฃผ์ด์ง ๋ฐ์ดํฐ์ ๋ถํฌ๋ฅผ ํ์ตํ์ฌ ์๋ก์ด ๋ฐ์ดํฐ๋ฅผ ์ฐฝ์กฐํ๋ ์ธ๊ณต์ง๋ฅ ๋ชจ๋ธ์ ๋๋ค. ๊ธฐ์กด์ ํ๋ณ ๋ชจ๋ธ์ด ๋ฐ์ดํฐ๋ฅผ ๋ถ๋ฅํ๊ฑฐ๋ ์์ธกํ๋ ๊ฒ์ ์ง์คํ๋ค๋ฉด, ์์ฑ ๋ชจ๋ธ์ ํ ์คํธ, ์ด๋ฏธ์ง, ์์ฑ ๋ฑ ํ์ค ์ธ๊ณ์ ์ ์ฌํ ์๋ก์ด ์ํ์ ๋ง๋ค์ด๋ด๋ ๊ฒ์ ๋ชฉํ๋ก ํฉ๋๋ค. ์ด๋ฌํ ์์ฑ ๋ชจ๋ธ์ ํฌ๊ฒ ๋ ๊ฐ์ง๋ก ๋ถ๋ฅํ ์ ์์ต๋๋ค. ์ฒซ ๋ฒ์งธ๋ ๋ฐ์ดํฐ์ ๋ฐ๋ ํจ์๋ฅผ ๋ช ์์ ์ผ๋ก ํ์ตํ๋ Explicit Model๋ก, VAE๋ Diffusion Model์ด ์ฌ๊ธฐ์ ์ํฉ๋๋ค. ๋ ๋ฒ์งธ๋ ๋ฐ์ดํฐ์ ๋ถํฌ๋ฅผ ๊ฐ์ ์ ์ผ๋ก ํ์ตํ๋ Implicit Model๋ก, GAN์ด ๋ํ์ ์ธ ์์ ๋๋ค.
Method: Network Design & Principles
1. VAE (Variational AutoEncoder)

VAE๋ ํ๋ฅ ์ ์ ๊ทผ์ ๋์ ํ์ฌ Latent Space์ ์ฐ์์ ์ธ ๋ถํฌ๋ก ๋ชจ๋ธ๋งํฉ๋๋ค. ๊ธฐ์กด์ AutoEncoder๊ฐ ์ ์ฌ ๊ณต๊ฐ์ ๋ถ์ฐ์์ฑ ๋๋ฌธ์ ์๋ก์ด ๋ฐ์ดํฐ ์์ฑ์ ํ๊ณ๊ฐ ์์๋ ๋ฐ๋ฉด, VAE๋ ์ ๋ ฅ ๋ฐ์ดํฐ๋ฅผ ํ๊ท ๊ณผ ๋ถ์ฐ์ ๊ฐ๋ ํ๋ฅ ๋ถํฌ๋ก ํํํ์ฌ ์ ์ฌ ๊ณต๊ฐ ๋ด์์ ์์ฐ์ค๋ฌ์ด ๋ณด๊ฐ(interpolation)๊ณผ ์๋ก์ด ๋ฐ์ดํฐ ์์ฑ์ ๊ฐ๋ฅํ๊ฒ ํฉ๋๋ค. VAE๋ ์ธ์ฝ๋๋ฅผ ํตํด ๋ฐ์ดํฐ๋ฅผ ์ ์ฌ ๊ณต๊ฐ์ ๋ถํฌ๋ก ๋ณํํ๊ณ , ๋์ฝ๋๋ฅผ ํตํด ์ด ๋ถํฌ์์ ์ํ๋ง๋ ๋ฐ์ดํฐ๋ฅผ ์๋ณธ๊ณผ ์ ์ฌํ๊ฒ ๋ณต์ํ๋ ๋ฐฉ์์ผ๋ก ํ์ตํฉ๋๋ค.

์ด๋ฅผ ์ํ Loss Function์ ์์ ๊ฐ์ด ๊ตฌ์ฑ๋๋๋ฐ, ์ด๋ Reconstruction Term๊ณผ KL Divergence Term์ผ๋ก ๊ตฌ์ฑ๋ฉ๋๋ค. Reconstruction Term์ ์ ์ฌ ๋ถํฌ z๋ก๋ถํฐ ๋ฐ์ดํฐ๋ฅผ ์ผ๋ง๋ ์ ๋ณต์ํ๋์ง๋ฅผ ํ๊ฐํ๋ฉฐ, ์๋ณธ ๋ฐ์ดํฐ x์ ๋ณต์๋ ๋ฐ์ดํฐ x’ ์ฌ์ด์ ์ฐจ์ด๋ฅผ ์ธก์ ํฉ๋๋ค. KL Divergence Loss (Regularization Loss)๋ ๊ทผ์ฌ ๋ถํฌ q(zโฃx)์ ์ ๊ท ๋ถํฌ p(z)์ ์ ์ฌ๋๋ฅผ ํ๊ฐํ๋ฉฐ, ์ด๋ฅผ ์ต์ํํ๋ฉด ์ ์ฌ ๊ณต๊ฐ์ด ์ ๊ท ๋ถํฌ์ ๊ฐ๊น์์ง๊ฒ ๋ฉ๋๋ค.
2. GAN (Generative Adversarial Network)
GAN์ ์์ฑ์(Generator)์ ํ๋ณ์(Discriminator)๋ผ๋ ๋ ๊ฐ์ ์ ๊ฒฝ๋ง์ด ์๋ก ๊ฒฝ์ํ๋ฉฐ ํ์ตํ๋ ๋ ํนํ ๊ตฌ์กฐ๋ฅผ ๊ฐ์ง๋๋ค. ์์ฑ์๋ ์ง์ง์ ๋น์ทํ ๊ฐ์ง ๋ฐ์ดํฐ๋ฅผ ๋ง๋ค์ด ํ๋ณ์๋ฅผ ์์ด๋ ค ํ๊ณ , ํ๋ณ์๋ ์ง์ง ๋ฐ์ดํฐ์ ์์ฑ์๊ฐ ๋ง๋ ๊ฐ์ง ๋ฐ์ดํฐ๋ฅผ ๊ตฌ๋ณํ๋ ค๊ณ ํฉ๋๋ค. ์ด๋ฌํ ์ ๋์ ํ์ต(Adversarial Training) ๊ณผ์ ์ ํตํด ์์ฑ์๋ ์ ์ ๋ ์ค์ ์ ๊ตฌ๋ณํ๊ธฐ ์ด๋ ค์ด ๊ณ ํ์ง์ ๋ฐ์ดํฐ๋ฅผ ๋ง๋ค๊ฒ ๋ฉ๋๋ค.

์ด๋ฅผ ์ํ Loss Function์ ์์ ๊ฐ์ด ๊ตฌ์ฑ๋๋๋ฐ, ์ฌ๊ธฐ์ x๋ ์ค์ ๋ฐ์ดํฐ์ด๊ณ , z๋ ๊ฐ์ง ๋ฐ์ดํฐ๋ฅผ ๋ง๋๋ ๋ถํฌ์ ๋๋ค. ๊ทธ๋ฌ๋ฏ๋ก D(x)๋ฅผ ์ต๋ํ 1์ ๊ฐ๊น๊ฒ ๋ง๋ฆ์ผ๋ก์จ ์ค์ ๋ฐ์ดํฐ๋ฅผ 1๋ก ๋ถ๋ฅํ๊ณ , D(G(z))๋ฅผ ์ต๋ํ 0์ ๊ฐ๊น๊ฒ ๋ง๋ฆ์ผ๋ก์จ ๊ฐ์ง ๋ฐ์ดํฐ๋ฅผ 0์ผ๋ก ๋ถ๋ฅํ๋๋ก discriminator๋ฅผ ํ์ตํ๋ ๊ฒ์ ๋๋ค.
3. Diffusion Model

Diffusion Model์ ๋ฐ์ดํฐ์ ์ ์ง์ ์ผ๋ก ๋ ธ์ด์ฆ๋ฅผ ์ถ๊ฐํ์ฌ ์์ ํ ๋ฌด์์์ ์ธ ์ํ๋ก ๋ง๋๋ Forward ํ์ฐ ๊ณผ์ ๊ณผ, ์ด ๋ ธ์ด์ฆ ์ํ๋ก๋ถํฐ ์ ์ง์ ์ผ๋ก ๋ ธ์ด์ฆ๋ฅผ ์ ๊ฑฐํ์ฌ ์๋ณธ ๋ฐ์ดํฐ๋ฅผ ๋ณต์ํ๋ Reverse ๋ณต์ ๊ณผ์ ์ ํ์ตํฉ๋๋ค. ํนํ, ์ญ๋ฐฉํฅ ๊ณผ์ ์ ํ์ตํ๊ธฐ ์ํด U-Net๊ณผ ๊ฐ์ ์ ๊ฒฝ๋ง์ ์ฌ์ฉํ๋ฉฐ, ์ด๋ ๋ ธ์ด์ฆ๊ฐ ๋ ์ด๋ฏธ์ง๋ฅผ ์ ๋ ฅ์ผ๋ก ๋ฐ์ ์๋ณธ ์ด๋ฏธ์ง์ ๋ ธ์ด์ฆ๋ฅผ ์์ธกํ๊ณ ์ ๊ฑฐํ๋ ๋ฐฉ์์ผ๋ก ์๋ํฉ๋๋ค.
Recap: Generative Model

Application: ์์ฉ ๋ถ์ผ
์์ฑ ๋ชจ๋ธ์ ๋ค์ํ ๋ถ์ผ์ ์ ์ฉ๋๊ณ ์์ต๋๋ค.
- Classifier Guidance: Diffusion Model์ ๋ถ๋ฅ๊ธฐ์ Gradient๋ฅผ ํ์ฉํ์ฌ ํน์ ํด๋์ค์ ๋ง๋ ์ด๋ฏธ์ง๋ฅผ ์์ฑํ๋๋ก ์ ๋ํฉ๋๋ค.
- Super Resolution: ์ ํ์ง ์ด๋ฏธ์ง๋ฅผ ๊ณ ํ์ง๋ก ๋ณํํ๋ ์ดํด์๋ ๊ธฐ์ ์ Diffusion Model์ด ํ์ฉ๋ฉ๋๋ค.
- Inpainting: ์ด๋ฏธ์ง์ ์ผ๋ถ๊ฐ ๊ฐ๋ ค์ง ๋ถ๋ถ์ ์์ฐ์ค๋ฝ๊ฒ ์ฑ์ ๋ฃ๋ ๊ธฐ์ ์ ์ฌ์ฉ๋ฉ๋๋ค.
- Text Guided Image Generation: GLIDE ๋ชจ๋ธ๊ณผ ๊ฐ์ด ํ ์คํธ ์๋ฒ ๋ฉ์ ์กฐ๊ฑด์ผ๋ก ์ฌ์ฉํ์ฌ ํ ์คํธ์ ํด๋นํ๋ ์ด๋ฏธ์ง๋ฅผ ์์ฑํฉ๋๋ค.
Discussion
- p(x)๋ฅผ ์ต๋ํ ํ๋ ๊ฒ์ ์๋ฏธ์ ELBO
- p(x)๋ ๋ฐ์ดํฐ์ likelihood์ฌ์ ๋ชจ๋ธ์ด ์ต๋ํํ์ฌ ์์ธกํ๊ธธ ๋ฐ๋ผ๋๋ฐ, p(x)๋ฅผ ์ ํํ๊ฒ ์๊ธฐ ์ด๋ ต๊ธฐ ๋๋ฌธ์ ELBO๋ฅผ ํํ์ผ๋ก ์ค์ ํ๊ณ ํํ์ ๋์ฌ์ ์ต์ํ ์ด ๊ธฐ์ค๋ณด๋ค๋ ๋์์ผ ํจ์ ์ค์ ํ๋ค
- p()์ q()๊ฐ ๋ค๋ฅธ๋ฐ ์ด๋ป๊ฒ ๋์ ์ฌ์ฉํ ์ ์๋
- ๋์ ์ฌ์ฉํ๋ค๊ธฐ ๋ณด๋ค๋ encodeํ๋ ๊ณผ์ ์ ์๋ฉด decodeํ๋ ๊ณผ์ ์ ์ ์ ์๊ธฐ ๋๋ฌธ์ ๊ฐ์ ๋ถํฌ๋ฅผ ์ฌ์ฉํด์ encoder๋ฅผ ํตํด decoder๋ก ๋ ธ์ด์ฆ์์ ์ด๋ฏธ์ง๋ฅผ ๋ณต์ํด๋๊ฐ๋ ๊ฒ์ด๋ค
- diffusion์์ ์ถ๋ก ํ ๋๋ ์ ๊ฑฐํ๋ ๊ณผ์ ์์ ํ์ตํ ๊ฐ์ค์น๋ง ์ฌ์ฉํ๋๊ฐ(๋
ธ์ด์ฆ๋ฅผ ์ถ๊ฐํ๋ ๊ณผ์ ์ ๊ฐ์ค์น๋ฅผ ์ ์ธํ๊ณ )
- ๊ฐ์ฐ์์ ๋ ธ์ด์ฆ๋ฅผ ์ฌ์ฉํ๊ณ denoisingํ ๋๋ ๊ฐ์ฐ์์์ ์ฌ์ฉํจ,์ถ๋ก ํ ๋๋ ๋๋คํ๊ฒ ๊ฐ์ฐ์์ ๋ ธ์ด์ฆ์์ ์์ฑํด์ผ ํจ
- ์ด๋ฏธ์ง ํฌ๊ธฐ๋ฅผ ๊ทธ๋๋ก ์งํํ๋์ง latent space์์ flatten ๋์ด์ ๊ฐ๋์ง
- ์ด๋ฏธ์ง ํฌ๊ธฐ๋ ๊ทธ๋๋ก ๊ฐ๋๊ฒ ๋ง๋ค
- GAN๊น์ง์ ํ๋ฆ์ latent space์์ ์๋ก ์ด๋ฏธ์ง๋ฅผ ์์ฑํ๋ ๋๋์ผ๋ก ํ๋ฆ์ด ์งํ๋์๋๋ฐ, Diffusion ๋ชจ๋ธ์์๋ noise๋ฅผ ์ถ๊ฐํ๊ณ ์ด๋ฅผ ์์ธกํ์ฌ ์ญ์ ํ๋ ๋ฐฉํฅ์ผ๋ก ์ก์ ์ด์ ๊ฐ ๊ถ๊ธํ๊ณ , noise๊ฐ ์๋ ์ํ์์๋ train์ ํ์ฌ ๋ณต์ํ ์๋ ์์ํ
๋ฐ ๊ทธ๋ ๊ฒ ํ ์ด์ ?
- GAN์ ๋จ๊ณ์ ์ธ ํ์ต์ด ์๋๋ผ ํ๋ฒ์ ํ์ต์ ํด๋ฒ๋ฆฌ์ง๋ง, Diffusion ๋ชจ๋ธ์ ๋จ๊ณ์ ์ผ๋ก noise๋ฅผ ์ ๊ฑฐํ๋ฉด์ ํ์ตํ๊ธฐ ๋๋ฌธ์ ์ด๋ฏธ์ง์ ๊ณ์ธต์ ์ธ ๊ตฌ์กฐ๋ฅผ ํ์ตํ ์ ์์ ๊ฒ ๊ฐ๋ค: ๋ ธ์ด์ฆ ์ ๋๋ฅผ ์กฐ์ ํ๋ ๋ฒ ํ ๊ฐ์ด ์์ฃผ ์๋ค
- GAN๊ฐ์ ๊ฒฝ์ฐ๋ ์์ random ํ noise์์ ์์ํ์ง๋ง, Diffusion์ ์๋ณธ ์ด๋ฏธ์ง๋ก๋ถํฐ ํ์ฑ๋ noise๋ก๋ถํฐ ํ์ต๋๊ธฐ ๋๋ฌธ์ ๋ ์ฌ์ด ํ์ต์ด ๊ฐ๋ฅํ๋ค..? ⇒ ResNet ์ฒ๋ผ!
- ๊ธฐ์ค์ ์ผ๋ก ์ก์๋๊ณ , ๋ณต์์ด ์ฉ์ดํ๋๋ก ํ๋ ๊ด์ . ์์ ๋๋คํ๊ฒ ์์ํด์ ์ด๋ฏธ์ง๋ฅผ ๋ง๋๋ ๊ฒ๋ณด๋ค ์ด๋ฏธ์ง๊ฐ ์ฃผ์ด์ง๊ณ ๋ ธ์ด์ฆ๋ง ์์ธกํ๋ ํธ์ด ๋ ๊ฐํผ๋ฅผ ์ก๋๋ฐ ์ฉ์ดํ ๊ฒ ๊ฐ๋ค
'Study: Artificial Intelligence(AI) > AI: 2D Vision(Det, Seg, Trac)' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
| [2D Vision] ์ฐ์ธ YAI ๊ธฐ์ด์ฌํCV: Transformer & Vision Transformer (0) | 2025.08.21 |
|---|---|
| [Survey] Semantic 3D Reconstruction ๊ด๋ จ ๋ด์ฉ ์ ๋ฆฌ (0) | 2025.08.13 |
| [2D Vision] ์ฐ์ธ YAI ๊ธฐ์ด์ฌํCV: YOLO (6) | 2025.08.12 |
| [2D Vision] ์ฐ์ธ YAI ๊ธฐ์ด์ฌํCV: R-CNN, Faster R-CNN (4) | 2025.08.04 |
| [2D Vision] 2D Point Tracking: co-tracker ์ฌ์ฉ๋ฒ (0) | 2025.04.24 |