SDE vs ODE: Score-based Diffusion의 수학적 기초
확률적(Stochastic) vs 결정적(Deterministic). DDPM과 DDIM의 이론적 기반인 Score-based SDE와 Probability Flow ODE를 깊이 파헤칩니다.

SDE vs ODE: Score-based Diffusion의 수학적 기초
확률적(Stochastic) vs 결정적(Deterministic). 같은 분포, 다른 경로.
TL;DR
- SDE (Stochastic DE): 노이즈가 포함된 확률적 경로, DDPM의 이론적 기반
- ODE (Ordinary DE): 결정적 경로, DDIM과 Flow Matching의 기반
- Probability Flow ODE: SDE와 동일한 marginal 분포를 갖는 ODE
- 핵심 차이: SDE는 다양성↑ 품질↓, ODE는 다양성↓ 품질↑ 속도↑
1. 왜 미분방정식인가?
Diffusion의 본질
Diffusion 모델은 두 분포 사이의 변환입니다:
- Forward: 데이터 $p_{\text{data}}$ → 노이즈 $\mathcal{N}(0, I)$
- Reverse: 노이즈 $\mathcal{N}(0, I)$ → 데이터 $p_{\text{data}}$
이 변환을 연속 시간으로 모델링하면 미분방정식이 됩니다.
이산 vs 연속
DDPM (이산):
연속 시간 SDE:
연속 시간 관점이 더 유연하고, 다양한 샘플러 설계가 가능합니다.
2. Forward SDE: 데이터에서 노이즈로
Variance Preserving SDE (VP-SDE)
DDPM에 해당하는 연속 SDE:
여기서:
- $\beta(t)$: noise schedule (시간에 따른 노이즈 강도)
- $dw$: Wiener process (브라운 운동)
Variance Exploding SDE (VE-SDE)
SMLD/NCSN에 해당하는 SDE:
여기서 $\sigma(t)$는 시간에 따라 증가하는 노이즈 스케일.
Forward Process의 해
VP-SDE의 경우, 시간 $t$에서의 분포는:
여기서 $\bar{\alpha}_t = e^{-\int_0^t \beta(s)ds}$
이것이 DDPM의 forward process와 정확히 일치합니다!
3. Reverse SDE: 노이즈에서 데이터로
Anderson's Theorem
놀라운 사실: Forward SDE를 시간 역순으로 진행하면, 이것도 SDE입니다!
Forward:
Reverse:
여기서:
- $\nabla_x \log p_t(x)$: Score function (핵심!)
- $d\bar{w}$: 시간 역방향 Wiener process
Score Function이란?
Score는 "현재 위치에서 데이터 방향으로의 기울기"입니다.
DDPM의 노이즈 예측 $\epsilon_\theta$와 score의 관계:
4. Probability Flow ODE
핵심 발견
Song et al. (2021)의 중요한 발견:
SDE와 **같은 marginal 분포** $p_t(x)$를 갖는 **결정적 ODE**가 존재한다!
노이즈 항 $g(t)dw$가 사라지고, drift만 수정됩니다.
VP-SDE의 Probability Flow ODE
Score를 $\epsilon_\theta$로 치환하면:
이것이 DDIM의 $\eta=0$ 케이스와 동일합니다!
5. SDE vs ODE: 특성 비교
샘플링 경로
| 특성 | SDE (Reverse) | ODE (Probability Flow) |
|---|---|---|
| 경로 | 확률적 (매번 다름) | 결정적 (항상 같음) |
| 노이즈 | 매 스텝 추가 | 없음 |
| 다양성 | 높음 | 낮음 (같은 z → 같은 x) |
| 속도 | 느림 (작은 스텝 필요) | 빠름 (큰 스텝 가능) |
수학적 관계
SDE ODE
┌───────────┐ ┌───────────┐
z ~ │ Reverse │ z ~ │ Probability│
N(0,I)│ SDE │ N(0,I) │ Flow ODE │
│ │ │ │
└─────┬─────┘ └─────┬─────┘
│ │
▼ ▼
x ~ p_data x ~ p_data
같은 marginal 분포, 다른 경로!DDPM vs DDIM
| 모델 | 기반 | 특성 |
|---|---|---|
| DDPM | Reverse SDE | $\eta=1$, 확률적 |
| DDIM | Probability Flow ODE | $\eta=0$, 결정적 |
| DDIM (일반) | 둘의 혼합 | $0 \leq \eta \leq 1$ |
DDIM의 $\eta$ 파라미터:
- $\eta = 0$: 순수 ODE (결정적)
- $\eta = 1$: 순수 SDE (DDPM과 동일)
- $0 < \eta < 1$: 중간
6. Score Matching: Score 학습하기
Denoising Score Matching
Score function을 직접 학습하기는 어렵습니다. 대신 Denoising Score Matching을 사용:
이것이 DDPM의 학습 목표와 동일합니다!
Score와 노이즈 예측의 동치성
관계:
따라서 노이즈 예측 = Score 예측 (스케일만 다름)
7. 수치적 해법 (Solvers)
SDE Solvers
Euler-Maruyama (가장 기본):
Predictor-Corrector (Song et al.):
- Predictor: Euler step
- Corrector: Langevin dynamics로 보정
ODE Solvers
Euler (1차):
Heun (2차):
DPM-Solver (특화된 고차 solver):
- Diffusion ODE의 구조를 활용
- 10-20 스텝으로 고품질 생성
Solver 비교
| Solver | 차수 | 스텝 수 | 특징 |
|---|---|---|---|
| Euler-Maruyama | 1 | 1000+ | 기본 SDE |
| DDPM | 1 | 1000 | 이산 SDE |
| DDIM | 1 | 50-100 | ODE |
| DPM-Solver | 2-3 | 10-25 | 고차 ODE |
| DPM-Solver++ | 2-3 | 10-20 | 개선된 버전 |
8. Flow Matching과의 연결
Conditional Flow Matching
Flow Matching도 ODE 기반:
차이점:
- Diffusion ODE: Score에서 유도된 drift
- Flow Matching: 직접 velocity 학습
동일한 결과, 다른 경로
둘 다 $p_{\text{noise}} \to p_{\text{data}}$ 변환이지만:
| 특성 | Diffusion ODE | Flow Matching |
|---|---|---|
| 경로 | 곡선 (Score 기반) | 직선 (Optimal Transport) |
| 유도 | SDE에서 유도 | 직접 정의 |
| 학습 목표 | $\epsilon$ 예측 | $v$ 예측 |
9. 실용적 선택 가이드
언제 SDE를 쓸까?
- 다양성이 중요할 때
- 충분한 compute가 있을 때
- Inpainting 같은 stochastic refinement가 필요할 때
언제 ODE를 쓸까?
- 속도가 중요할 때
- 결정적 결과가 필요할 때 (재현성)
- Latent interpolation이 필요할 때
현대 모델들의 선택
| 모델 | 선택 | 이유 |
|---|---|---|
| DALL-E 2 | SDE (DDPM) | 품질 우선 |
| Stable Diffusion | ODE (DDIM/DPM) | 속도-품질 균형 |
| SD3/FLUX | Flow ODE | 직선 경로로 빠른 생성 |
10. 고급 주제
Continuous Normalizing Flows (CNF)
ODE 관점에서 보면, diffusion은 일종의 Normalizing Flow:
이를 통해 likelihood 계산도 가능합니다.
Optimal Transport 관점
Probability Flow ODE는 Optimal Transport와 연결:
- 두 분포 사이의 "최단 경로"
- Wasserstein distance와 관련
Guidance in SDE vs ODE
Classifier-Free Guidance도 SDE/ODE 모두 적용 가능:
결론
| 개념 | SDE | ODE |
|---|---|---|
| 수식 | $dx = f dt + g dw$ | $dx = f dt$ |
| 대표 모델 | DDPM | DDIM, Flow Matching |
| 경로 | 확률적 | 결정적 |
| 장점 | 다양성, 이론적 기반 | 속도, 재현성 |
| 단점 | 느림 | 다양성 감소 |
핵심 인사이트: SDE와 ODE는 같은 문제를 다른 방식으로 푸는 것입니다. Probability Flow ODE 덕분에 우리는 SDE의 이론적 장점을 유지하면서 ODE의 실용적 장점을 얻을 수 있습니다.
References
- Song, Y., et al. "Score-Based Generative Modeling through Stochastic Differential Equations" (ICLR 2021)
- Ho, J., et al. "Denoising Diffusion Probabilistic Models" (NeurIPS 2020)
- Song, J., et al. "Denoising Diffusion Implicit Models" (ICLR 2021)
- Lipman, Y., et al. "Flow Matching for Generative Modeling" (ICLR 2023)
- Lu, C., et al. "DPM-Solver: A Fast ODE Solver for Diffusion Probabilistic Model Sampling" (NeurIPS 2022)