BERT는 왜 생성 모델이 되지 못했나? LLaDA가 해결한 Variable Masking의 비밀
Variable Masking, Fisher Consistency, In-Context Learning, Reversal Curse -- LLaDA가 Diffusion으로 진짜 LLM을 만든 방법.

BERT는 왜 생성 모델이 되지 못했나? LLaDA가 해결한 Variable Masking의 비밀
Part 2에서 우리는 D3PM과 MDLM이 이산 공간에서 Diffusion을 정의하는 방법을 살펴봤습니다. [MASK] 토큰을 사용한 Absorbing State Diffusion이 텍스트에 가장 효과적이라는 것도 확인했습니다.
하지만 이전 연구들은 비교적 작은 규모에 머물러 있었습니다. "Diffusion으로 진짜 LLM을 만들 수 있는가?"라는 질문에 답한 것은 LLaDA(Large Language Diffusion with mAsking)입니다.
Nie et al. (2025)은 Masked Diffusion을 8B 파라미터까지 스케일링하고, LLaMA3 8B와 직접 비교하며, Diffusion LLM이 AR 모델의 핵심 능력 -- In-Context Learning, Instruction Following -- 을 갖출 수 있음을 보여줬습니다.
핵심 아이디어: Variable Masking Ratio
관련 포스트

MiniMax M2.5: 1시간 1달러로 Opus급 성능을 쓰는 시대
MiniMax M2.5는 230B MoE 아키텍처에서 10B만 활성화하여 SWE-bench 80.2%를 달성합니다. Claude Opus의 1/20 가격에 동등한 코딩 성능. Forge RL 프레임워크, 벤치마크 분석, 가격 비교.

역전파를 처음부터: Chain Rule, 계산 그래프, 위상 정렬
microgpt.py의 backward() 15줄이 작동하는 원리. 고등학교 미분부터 시작해 chain rule, 계산 그래프, 위상 정렬, 역전파까지 연결합니다.

Karpathy의 microgpt.py 완전 해부: 150줄로 이해하는 GPT의 본질
PyTorch 없이 순수 Python 150줄로 GPT를 학습하고 추론하는 microgpt.py. 코드 한 줄 한 줄을 해부하며 GPT의 알고리즘과 효율화를 구분합니다.