Claude Sonnet 4.6: Opus급 성능, 40% 저렴 — 벤치마크 심층 분석
Claude Sonnet 4.6은 SWE-bench 79.6%, OSWorld 72.5%, GDPval-AA 1633 Elo로 실무 태스크에서 Opus 4.6과 동급이거나 우위. $3/$15 vs $5/$25. Adaptive Thinking, Context Compaction, OSWorld 성장 추이 분석.

Sonnet이 Opus를 이겼다? — Claude Sonnet 4.6 벤치마크 심층 분석
Anthropic이 2월 17일 공개한 Claude Sonnet 4.6가 특정 벤치마크에서 플래그십 모델 Opus 4.6를 능가하는 결과가 나왔습니다. 가격은 약 40% 저렴. 비결은 '싸게 만든 열화판'이 아니라, 아키텍처 레벨의 구조 변경에 있습니다.
Opus vs Sonnet, 뭐가 달랐나?
기존의 Opus-Sonnet 관계는 명확했습니다. Opus는 '풀스펙 두뇌', Sonnet은 '경량화 두뇌'. 같은 아키텍처를 압축하니 당연히 성능이 깎였죠.
4.6 세대에서 이 공식이 깨집니다.
관련 포스트

AI Research
MiniMax M2.5: 1시간 1달러로 Opus급 성능을 쓰는 시대
MiniMax M2.5는 230B MoE 아키텍처에서 10B만 활성화하여 SWE-bench 80.2%를 달성합니다. Claude Opus의 1/20 가격에 동등한 코딩 성능. Forge RL 프레임워크, 벤치마크 분석, 가격 비교.

AI Research
역전파를 처음부터: Chain Rule, 계산 그래프, 위상 정렬
microgpt.py의 backward() 15줄이 작동하는 원리. 고등학교 미분부터 시작해 chain rule, 계산 그래프, 위상 정렬, 역전파까지 연결합니다.

AI Research
Karpathy의 microgpt.py 완전 해부: 150줄로 이해하는 GPT의 본질
PyTorch 없이 순수 Python 150줄로 GPT를 학습하고 추론하는 microgpt.py. 코드 한 줄 한 줄을 해부하며 GPT의 알고리즘과 효율화를 구분합니다.