Latent Diffusion Models: Stable Diffusion의 핵심 원리

Read time: 1 minute

📘 이 글은 실습용 Jupyter 노트북을 기반으로 작성되었습니다. 전체 코드는 글 마지막에서 다운로드할 수 있습니다.

문제: 픽셀 공간의 한계

DDPM은 픽셀 공간에서 직접 diffusion을 수행합니다. 512×512 이미지는 786,432개의 픽셀을 가지며, 이는 엄청난 계산 비용을 요구합니다:

  • 💾 메모리: ~72GB GPU
  • ⏱️ 훈련 시간: 수백 GPU days
  • 🔄 고해상도 생성이 실질적으로 불가능

해법: Latent Space로 이동

Latent Diffusion Models (LDM)의 핵심 아이디어는 간단합니다: 고차원 픽셀 공간 대신 압축된 latent 공간에서 diffusion을 실행합니다.

  • # Pixel-space DDPM
    x ∈ ℝ^(512×512×3)  # 786,432 차원
    # → 72GB GPU, 느린 훈련
    
    # Latent Diffusion
    x → VAE → z ∈ ℝ^(64×64×4)  # 16,384 차원 (48배 축소)
    # → 15GB GPU, 2.7배 빠른 훈련

    결과:

    • 🚀 훈련 속도: 2.7배 향상
    • 💾 메모리 사용: 4.8배 감소
    • 📈 FID 점수: 1.6배 개선

    Stage 1: Perceptual Compression (VAE)

    VAE는 이미지를 지각적으로 동등한(perceptually equivalent) 압축 표현으로 변환합니다. Stable Diffusion은 8배 압축(f=8)을 사용합니다.

    수학적 정의:

    구독하고 전체 내용 보기

    이 글의 나머지 부분을 읽으려면 구독이 필요합니다.

    모든 프리미엄 콘텐츠 무제한 열람
    Jupyter Notebook 및 실습 자료 다운로드
    새로운 콘텐츠 업데이트 시 이메일 알림

    월 9,900원 또는 연 99,000원 (17% 할인)