AI Research🇺🇸 English

100B 파라미터도 가뿐하게! MoE와 Token Editing으로 AR 모델의 속도를 넘어서다

MoE 스케일링, Token Editing(T2T+M2T), S-Mode/Q-Mode, RL Framework -- LLaDA 2.X가 Diffusion LLM을 실용화하는 과정.

100B 파라미터도 가뿐하게! MoE와 Token Editing으로 AR 모델의 속도를 넘어서다

100B 파라미터도 가뿐하게! MoE와 Token Editing으로 AR 모델의 속도를 넘어서다

Part 3에서 LLaDA가 Masked Diffusion을 8B 스케일로 확장하며 "Diffusion LLM은 가능하다"를 증명했습니다. 하지만 실용적인 문제가 남아 있었습니다: 속도가 AR 모델에 비해 훨씬 느리고, RLHF 같은 정렬 학습이 부재했습니다.

2025년 11월 Ant Group의 InclusionAI가 LLaDA 2.0으로 이 간극을 좁히기 시작했고, 2026년 2월 LLaDA 2.1에서 Token Editing이라는 혁신으로 속도-품질 트레이드오프를 재정의했습니다.

이 글에서는 8B에서 100B로의 스케일링, MoE 아키텍처의 도입, 그리고 Token Editing의 작동 원리를 다룹니다.

LLaDA 2.0: 100B로의 도약

🔒

이어서 읽으려면 로그인이 필요합니다

무료 회원가입으로 전체 콘텐츠를 확인하세요.

관련 포스트