[2D Vision] 연세 YAI 기초심화CV: Generative Models

💡 본 문서는 'Generative Models'에 대해 정리해놓은 글입니다.
본 보고서는 VAE(Variational AutoEncoder), GAN(Generative Adversarial Network), Diffusion Model 등 최근 각광받고 있는 다양한 생성 모델의 원리, 구조, 그리고 응용 분야를 심도 있게 다루고 있습니다.

Introduction: 새로운 데이터의 창조자들

생성 모델은 주어진 데이터의 분포를 학습하여 새로운 데이터를 창조하는 인공지능 모델입니다. 기존의 판별 모델이 데이터를 분류하거나 예측하는 것에 집중했다면, 생성 모델은 텍스트, 이미지, 음성 등 현실 세계와 유사한 새로운 샘플을 만들어내는 것을 목표로 합니다. 이러한 생성 모델은 크게 두 가지로 분류할 수 있습니다. 첫 번째는 데이터의 밀도 함수를 명시적으로 학습하는 Explicit Model로, VAE나 Diffusion Model이 여기에 속합니다. 두 번째는 데이터의 분포를 간접적으로 학습하는 Implicit Model로, GAN이 대표적인 예입니다.

Method: Network Design & Principles

1. VAE (Variational AutoEncoder)

VAE는 확률적 접근을 도입하여 Latent Space을 연속적인 분포로 모델링합니다. 기존의 AutoEncoder가 잠재 공간의 불연속성 때문에 새로운 데이터 생성에 한계가 있었던 반면, VAE는 입력 데이터를 평균과 분산을 갖는 확률 분포로 표현하여 잠재 공간 내에서 자연스러운 보간(interpolation)과 새로운 데이터 생성을 가능하게 합니다. VAE는 인코더를 통해 데이터를 잠재 공간의 분포로 변환하고, 디코더를 통해 이 분포에서 샘플링된 데이터를 원본과 유사하게 복원하는 방식으로 학습합니다.

이를 위한 Loss Function은 위와 같이 구성되는데, 이는 Reconstruction Term과 KL Divergence Term으로 구성됩니다. Reconstruction Term은 잠재 분포 z로부터 데이터를 얼마나 잘 복원했는지를 평가하며, 원본 데이터 x와 복원된 데이터 x’ 사이의 차이를 측정합니다. KL Divergence Loss (Regularization Loss)는 근사 분포 q(z∣x)와 정규 분포 p(z)의 유사도를 평가하며, 이를 최소화하면 잠재 공간이 정규 분포와 가까워지게 됩니다.

2. GAN (Generative Adversarial Network)

GAN은 생성자(Generator)와 판별자(Discriminator)라는 두 개의 신경망이 서로 경쟁하며 학습하는 독특한 구조를 가집니다. 생성자는 진짜와 비슷한 가짜 데이터를 만들어 판별자를 속이려 하고, 판별자는 진짜 데이터와 생성자가 만든 가짜 데이터를 구별하려고 합니다. 이러한 적대적 학습(Adversarial Training) 과정을 통해 생성자는 점점 더 실제와 구별하기 어려운 고품질의 데이터를 만들게 됩니다.

이를 위한 Loss Function은 위와 같이 구성되는데, 여기서 x는 실제 데이터이고, z는 가짜 데이터를 만드는 분포입니다. 그러므로 D(x)를 최대한 1에 가깝게 만듦으로써 실제 데이터를 1로 분류하고, D(G(z))를 최대한 0에 가깝게 만듦으로써 가짜 데이터를 0으로 분류하도록 discriminator를 학습하는 것입니다.

3. Diffusion Model

Diffusion Model은 데이터에 점진적으로 노이즈를 추가하여 완전히 무작위적인 상태로 만드는 Forward 확산 과정과, 이 노이즈 상태로부터 점진적으로 노이즈를 제거하여 원본 데이터를 복원하는 Reverse 복원 과정을 학습합니다. 특히, 역방향 과정을 학습하기 위해 U-Net과 같은 신경망을 사용하며, 이는 노이즈가 낀 이미지를 입력으로 받아 원본 이미지의 노이즈를 예측하고 제거하는 방식으로 작동합니다.

Recap: Generative Model

Application: 응용 분야

생성 모델은 다양한 분야에 적용되고 있습니다.

Classifier Guidance: Diffusion Model에 분류기의 Gradient를 활용하여 특정 클래스에 맞는 이미지를 생성하도록 유도합니다.
Super Resolution: 저화질 이미지를 고화질로 변환하는 초해상도 기술에 Diffusion Model이 활용됩니다.
Inpainting: 이미지의 일부가 가려진 부분을 자연스럽게 채워 넣는 기술에 사용됩니다.
Text Guided Image Generation: GLIDE 모델과 같이 텍스트 임베딩을 조건으로 사용하여 텍스트에 해당하는 이미지를 생성합니다.

Discussion

p(x)를 최대화 하는 것의 의미와 ELBO
- p(x)는 데이터의 likelihood여서 모델이 최대화하여 예측하길 바라는데, p(x)를 정확하게 알기 어렵기 때문에 ELBO를 하한으로 설정하고 하한을 높여서 최소한 이 기준보다는 높아야 함을 설정한다
p()와 q()가 다른데 어떻게 대신 사용할 수 있나
- 대신 사용한다기 보다는 encode하는 과정을 알면 decode하는 과정을 알 수 있기 때문에 같은 분포를 사용해서 encoder를 통해 decoder로 노이즈에서 이미지를 복원해나가는 것이다
diffusion에서 추론할 때는 제거하는 과정에서 학습한 가중치만 사용하는가(노이즈를 추가하는 과정의 가중치를 제외하고)
- 가우시안 노이즈를 사용하고 denoising할 때도 가우시안을 사용함,추론할 때도 랜덤하게 가우시안 노이즈에서 생성해야 함
이미지 크기를 그대로 진행하는지 latent space에서 flatten 되어서 가는지
- 이미지 크기는 그대로 가는게 맞다
GAN까지의 흐름은 latent space에서 새로 이미지를 생성하는 느낌으로 흐름이 진행되었는데, Diffusion 모델에서는 noise를 추가하고 이를 예측하여 삭제하는 방향으로 잡은 이유가 궁금하고, noise가 있는 상태에서도 train을 하여 복원할 수도 있을텐데 그렇게 한 이유?
- GAN은 단계적인 학습이 아니라 한번에 학습을 해버리지만, Diffusion 모델은 단계적으로 noise를 제거하면서 학습하기 때문에 이미지의 계층적인 구조를 학습할 수 있을 것 같다: 노이즈 정도를 조절하는 베타 값이 아주 작다
- GAN같은 경우는 아예 random 한 noise에서 시작하지만, Diffusion은 원본 이미지로부터 형성된 noise로부터 학습되기 때문에 더 쉬운 학습이 가능하다..? ⇒ ResNet 처럼!
- 기준점으로 잡아두고, 복원이 용이하도록 하는 관점. 아예 랜덤하게 시작해서 이미지를 만드는 것보다 이미지가 주어지고 노이즈만 예측하는 편이 더 갈피를 잡는데 용이할 것 같다

저작자표시 비영리 변경금지 (새창열림)

'Study: Artificial Intelligence(AI) > AI: 2D Vision(Det, Seg, Trac)' 카테고리의 다른 글

[2D Vision] 연세 YAI 기초심화CV: Transformer & Vision Transformer (0)	2025.08.21
[Survey] Semantic 3D Reconstruction 관련 내용 정리 (0)	2025.08.13
[2D Vision] 연세 YAI 기초심화CV: YOLO (6)	2025.08.12
[2D Vision] 연세 YAI 기초심화CV: R-CNN, Faster R-CNN (4)	2025.08.04
[2D Vision] 2D Point Tracking: co-tracker 사용법 (0)	2025.04.24

일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30