Diffusion LLM Part 1: Diffusion 기초 -- DDPM에서 Score Matching까지
Forward/Reverse Process, ELBO, Simplified Loss, Score Function -- Diffusion 모델의 수학적 원리를 직관적으로 해부합니다.

Diffusion LLM Part 1: Diffusion 기초 -- DDPM에서 Score Matching까지
Diffusion 기반 언어 모델을 이해하려면, 먼저 Diffusion 모델 자체를 이해해야 합니다. 이 글에서는 이미지 생성에서 검증된 Diffusion의 핵심 원리를 다룹니다. 수학이 좀 나오지만, 직관적인 설명을 함께 달아두었으니 수식이 낯설어도 흐름을 따라갈 수 있습니다.
이 글은 Diffusion LLM 시리즈의 첫 번째 편입니다. 시리즈 개요는 Hub 글을 참고하세요.
Diffusion의 핵심 아이디어
Diffusion 모델의 아이디어는 놀랍도록 단순합니다.
관련 포스트

AI Research
MiniMax M2.5: 1시간 1달러로 Opus급 성능을 쓰는 시대
MiniMax M2.5는 230B MoE 아키텍처에서 10B만 활성화하여 SWE-bench 80.2%를 달성합니다. Claude Opus의 1/20 가격에 동등한 코딩 성능. Forge RL 프레임워크, 벤치마크 분석, 가격 비교.

AI Research
역전파를 처음부터: Chain Rule, 계산 그래프, 위상 정렬
microgpt.py의 backward() 15줄이 작동하는 원리. 고등학교 미분부터 시작해 chain rule, 계산 그래프, 위상 정렬, 역전파까지 연결합니다.

AI Research
Karpathy의 microgpt.py 완전 해부: 150줄로 이해하는 GPT의 본질
PyTorch 없이 순수 Python 150줄로 GPT를 학습하고 추론하는 microgpt.py. 코드 한 줄 한 줄을 해부하며 GPT의 알고리즘과 효율화를 구분합니다.