MiniMax M2.5: 1시간 1달러로 Opus급 성능을 쓰는 시대
MiniMax M2.5는 230B MoE 아키텍처에서 10B만 활성화하여 SWE-bench 80.2%를 달성합니다. Claude Opus의 1/20 가격에 동등한 코딩 성능. Forge RL 프레임워크, 벤치마크 분석, 가격 비교.

MiniMax M2.5: 1시간 1달러로 Opus급 성능을 쓰는 시대
2026년 2월 12일, 상하이의 AI 스타트업 MiniMax가 M2.5를 공개했습니다. SWE-bench Verified 80.2%, BrowseComp 76.3%, Multi-SWE-Bench 51.3%. Claude Opus 4.6의 0.6%p 이내이면서, 가격은 1/20 수준입니다.
모델은 오픈 웨이트로 Hugging Face에 공개되었고, modified MIT 라이선스를 사용합니다. 230B 파라미터 MoE 아키텍처에서 추론 시 10B만 활성화합니다. 100 TPS(tokens per second)의 Lightning 변종을 1시간 연속 실행해도 비용은 1달러입니다.
이 글에서는 M2.5의 아키텍처, 학습 방법론, 벤치마크 성능, 가격 구조를 분석하고, 이것이 AI 산업에 어떤 의미인지를 살펴봅니다.
아키텍처: 230B인데 10B만 쓴다
관련 포스트

역전파를 처음부터: Chain Rule, 계산 그래프, 위상 정렬
microgpt.py의 backward() 15줄이 작동하는 원리. 고등학교 미분부터 시작해 chain rule, 계산 그래프, 위상 정렬, 역전파까지 연결합니다.

Karpathy의 microgpt.py 완전 해부: 150줄로 이해하는 GPT의 본질
PyTorch 없이 순수 Python 150줄로 GPT를 학습하고 추론하는 microgpt.py. 코드 한 줄 한 줄을 해부하며 GPT의 알고리즘과 효율화를 구분합니다.

100B 파라미터도 가뿐하게! MoE와 Token Editing으로 AR 모델의 속도를 넘어서다
MoE 스케일링, Token Editing(T2T+M2T), S-Mode/Q-Mode, RL Framework -- LLaDA 2.X가 Diffusion LLM을 실용화하는 과정.