Latent Diffusion Models: Stable Diffusion의 핵심 원리
Read time: 1 minute
📘 이 글은 실습용 Jupyter 노트북을 기반으로 작성되었습니다. 전체 코드는 글 마지막에서 다운로드할 수 있습니다.
문제: 픽셀 공간의 한계¶
DDPM은 픽셀 공간에서 직접 diffusion을 수행합니다. 512×512 이미지는 786,432개의 픽셀을 가지며, 이는 엄청난 계산 비용을 요구합니다:
- 💾 메모리: ~72GB GPU
- ⏱️ 훈련 시간: 수백 GPU days
- 🔄 고해상도 생성이 실질적으로 불가능
해법: Latent Space로 이동¶
Latent Diffusion Models (LDM)의 핵심 아이디어는 간단합니다: 고차원 픽셀 공간 대신 압축된 latent 공간에서 diffusion을 실행합니다.
# Pixel-space DDPM
x ∈ ℝ^(512×512×3) # 786,432 차원
# → 72GB GPU, 느린 훈련
# Latent Diffusion
x → VAE → z ∈ ℝ^(64×64×4) # 16,384 차원 (48배 축소)
# → 15GB GPU, 2.7배 빠른 훈련결과:
- 🚀 훈련 속도: 2.7배 향상
- 💾 메모리 사용: 4.8배 감소
- 📈 FID 점수: 1.6배 개선
Stage 1: Perceptual Compression (VAE)¶
VAE는 이미지를 지각적으로 동등한(perceptually equivalent) 압축 표현으로 변환합니다. Stable Diffusion은 8배 압축(f=8)을 사용합니다.
수학적 정의:
구독하고 전체 내용 보기
이 글의 나머지 부분을 읽으려면 구독이 필요합니다.
✓모든 프리미엄 콘텐츠 무제한 열람
✓Jupyter Notebook 및 실습 자료 다운로드
✓새로운 콘텐츠 업데이트 시 이메일 알림
월 9,900원 또는 연 99,000원 (17% 할인)