AI Research🇺🇸 English

TransformerLens 실전: Activation Patching으로 모델 회로를 읽다

TransformerLens로 모델의 내부 activation을 직접 조작하여, 어떤 layer와 head가 답을 만드는 원인인지 추적한다. Activation patching의 원리와 실전 코드를 다룬다.

TransformerLens 실전: Activation Patching으로 모델 회로를 읽다

TransformerLens 실전: Activation Patching으로 모델 회로를 읽다

지난 글에서 Lens는 모델의 중간 사고를 읽는 창이라고 했다.

하지만 "읽기"만으로는 핵심 질문에 답할 수 없다:

모델이 그 정보를 정말로 '사용'하고 있는가?

어떤 layer의 hidden state에 "Paris"라는 정보가 있다고 해서, 그 layer가 최종 답을 만드는 데 실제로 기여하는지는 알 수 없다. 정보가 있되 사용되지 않을 수도 있기 때문이다.

🔒

이어서 읽으려면 로그인이 필요합니다

무료 회원가입으로 전체 콘텐츠를 확인하세요.

관련 포스트