AI Research•February 6, 2026•🇺🇸 English

TransformerLens 실전: Activation Patching으로 모델 회로를 읽다

TransformerLens로 모델의 내부 activation을 직접 조작하여, 어떤 layer와 head가 답을 만드는 원인인지 추적한다. Activation patching의 원리와 실전 코드를 다룬다.

TransformerLens 실전: Activation Patching으로 모델 회로를 읽다

TransformerLens 실전: Activation Patching으로 모델 회로를 읽다

지난 글에서 Lens는 모델의 중간 사고를 읽는 창이라고 했다.

하지만 "읽기"만으로는 핵심 질문에 답할 수 없다:

모델이 그 정보를 정말로 '사용'하고 있는가?

어떤 layer의 hidden state에 "Paris"라는 정보가 있다고 해서, 그 layer가 최종 답을 만드는 데 실제로 기여하는지는 알 수 없다. 정보가 있되 사용되지 않을 수도 있기 때문이다.

🔒

이어서 읽으려면 로그인이 필요합니다

무료 회원가입으로 전체 콘텐츠를 확인하세요.

로그인 / 회원가입

관련 포스트

SAE Lens와 TensorLens: Feature Interpretability의 시대

SAE Lens와 TensorLens: Feature Interpretability의 시대

뉴런은 해석 불가능하다. Sparse Autoencoder가 모델 내부의 monosemantic feature를 추출하고, TensorLens가 Transformer 전체를 하나의 텐서로 통합 분석하는 최신 interpretability를 정리한다.

Logit Lens에서 Tuned Lens까지: Transformer의 중간 사고를 읽는 법

Logit Lens에서 Tuned Lens까지: Transformer의 중간 사고를 읽는 법

LLM의 내부에서는 무슨 일이 벌어지고 있을까? Logit Lens와 Tuned Lens를 통해 Transformer가 layer마다 어떻게 답을 만들어가는지 직접 들여다본다.

MiniCPM-o 4.5 한국어 성능도 잘 나올까?

MiniCPM-o 4.5 한국어 성능도 잘 나올까?

MiniCPM-o 4.5의 한국어 성능을 영어와 나란히 비교 측정했습니다. 이미지 설명, OCR, 문서 추출에서 한국어가 잘 되는 부분과 무너지는 지점, 그리고 프롬프트가 아닌 아키텍처에서 오는 근본 원인을 분석합니다.