Latent Diffusion Models: Stable Diffusion의 핵심 원리

Jan 19, 2025

Read time: 1 minute

📘 이 글은 실습용 Jupyter 노트북을 기반으로 작성되었습니다. 전체 코드는 글 마지막에서 다운로드할 수 있습니다.

문제: 픽셀 공간의 한계¶

DDPM은 픽셀 공간에서 직접 diffusion을 수행합니다. 512×512 이미지는 786,432개의 픽셀을 가지며, 이는 엄청난 계산 비용을 요구합니다:

💾 메모리: ~72GB GPU
⏱️ 훈련 시간: 수백 GPU days
🔄 고해상도 생성이 실질적으로 불가능

해법: Latent Space로 이동¶

Latent Diffusion Models (LDM)의 핵심 아이디어는 간단합니다: 고차원 픽셀 공간 대신 압축된 latent 공간에서 diffusion을 실행합니다.

# Pixel-space DDPM
x ∈ ℝ^(512×512×3)  # 786,432 차원
# → 72GB GPU, 느린 훈련

# Latent Diffusion
x → VAE → z ∈ ℝ^(64×64×4)  # 16,384 차원 (48배 축소)
# → 15GB GPU, 2.7배 빠른 훈련

결과:

🚀 훈련 속도: 2.7배 향상
💾 메모리 사용: 4.8배 감소
📈 FID 점수: 1.6배 개선

Stage 1: Perceptual Compression (VAE)¶

VAE는 이미지를 지각적으로 동등한(perceptually equivalent) 압축 표현으로 변환합니다. Stable Diffusion은 8배 압축(f=8)을 사용합니다.

수학적 정의:

구독하고 전체 내용 보기

이 글의 나머지 부분을 읽으려면 구독이 필요합니다.

✓모든 프리미엄 콘텐츠 무제한 열람

✓Jupyter Notebook 및 실습 자료 다운로드

✓새로운 콘텐츠 업데이트 시 이메일 알림

월 9,900원 또는 연 99,000원 (17% 할인)

다운로드

파일 다운로드는 로그인이 필요합니다

Latent Diffusion Model (LDM) - Complete Implementation구독 필요

Stable Diffusion의 핵심인 Latent Diffusion Model을 처음부터 구현합니다. VAE, CLIP, Cross-Attention, CFG까지 모든 과정을 포함합니다.

03_LDM(Latent Diffusion Model)_SD1.ipynb•2.7 MB•ipynb