AI Research🇺🇸 English

Diffusion이 LLM을 대체한다? LLaDA 2.X 완전 해부

DDPM에서 LLaDA 2.1까지 -- Diffusion 기반 LLM의 모든 것. Masked Diffusion, Token Editing, MoE 스케일링을 4편의 시리즈로 완전 해부합니다.

Diffusion이 LLM을 대체한다? LLaDA 2.X 완전 해부

Diffusion이 LLM을 대체한다? LLaDA 2.X 완전 해부

ChatGPT, Claude, Gemini — 지금 우리가 쓰는 모든 대형 언어 모델(LLM)은 하나의 원리 위에 세워져 있습니다. 바로 Autoregressive(AR) 생성: 왼쪽에서 오른쪽으로, 한 토큰씩, 다음 단어를 예측합니다.

이 방식은 놀라울 정도로 잘 작동합니다. 하지만 구조적 한계가 있습니다.

  • 토큰을 순서대로 하나씩 뱉어야 하니 병렬 생성이 불가능합니다
  • "A는 B다"를 알아도 "B는 A다"를 추론하지 못하는 Reversal Curse가 일어납니다
🔒

이어서 읽으려면 로그인이 필요합니다

무료 회원가입으로 전체 콘텐츠를 확인하세요.

관련 포스트