AI Research•February 14, 2026•🇺🇸 English

역전파를 처음부터: Chain Rule, 계산 그래프, 위상 정렬

microgpt.py의 backward() 15줄이 작동하는 원리. 고등학교 미분부터 시작해 chain rule, 계산 그래프, 위상 정렬, 역전파까지 연결합니다.

역전파를 처음부터: Chain Rule, 계산 그래프, 위상 정렬

역전파를 처음부터: Chain Rule, 계산 그래프, 위상 정렬

microgpt.py의 backward() 함수는 15줄입니다. 하지만 이 15줄이 딥러닝 전체를 떠받치는 핵심 알고리즘 -- 역전파(backpropagation) -- 의 완전한 구현입니다.

이 글에서는 "왜 위상 정렬이 필요한가?"와 "chain rule이 뭔가?"를 고등학교 미분부터 시작해 microgpt.py의 backward()까지 연결합니다.

딥러닝의 핵심 질문

신경망을 학습시킨다는 것은 이런 뜻입니다:

🔒

이어서 읽으려면 로그인이 필요합니다

무료 회원가입으로 전체 콘텐츠를 확인하세요.

로그인 / 회원가입

관련 포스트

MiniMax M2.5: 1시간 1달러로 Opus급 성능을 쓰는 시대

MiniMax M2.5: 1시간 1달러로 Opus급 성능을 쓰는 시대

MiniMax M2.5는 230B MoE 아키텍처에서 10B만 활성화하여 SWE-bench 80.2%를 달성합니다. Claude Opus의 1/20 가격에 동등한 코딩 성능. Forge RL 프레임워크, 벤치마크 분석, 가격 비교.

Karpathy의 microgpt.py 완전 해부: 150줄로 이해하는 GPT의 본질

Karpathy의 microgpt.py 완전 해부: 150줄로 이해하는 GPT의 본질

PyTorch 없이 순수 Python 150줄로 GPT를 학습하고 추론하는 microgpt.py. 코드 한 줄 한 줄을 해부하며 GPT의 알고리즘과 효율화를 구분합니다.

100B 파라미터도 가뿐하게! MoE와 Token Editing으로 AR 모델의 속도를 넘어서다

100B 파라미터도 가뿐하게! MoE와 Token Editing으로 AR 모델의 속도를 넘어서다

MoE 스케일링, Token Editing(T2T+M2T), S-Mode/Q-Mode, RL Framework -- LLaDA 2.X가 Diffusion LLM을 실용화하는 과정.