AI Research🇺🇸 English

Logit Lens에서 Tuned Lens까지: Transformer의 중간 사고를 읽는 법

LLM의 내부에서는 무슨 일이 벌어지고 있을까? Logit Lens와 Tuned Lens를 통해 Transformer가 layer마다 어떻게 답을 만들어가는지 직접 들여다본다.

Logit Lens에서 Tuned Lens까지: Transformer의 중간 사고를 읽는 법

Logit Lens에서 Tuned Lens까지: Transformer의 중간 사고를 읽는 법

대형 언어 모델(LLM)에게 "프랑스의 수도는?"이라고 물으면 "파리"라고 답한다.

하지만 이 답은 어디서 만들어진 것일까? 첫 번째 layer에서? 마지막 layer에서? 아니면 중간 어딘가에서 서서히 형성된 것일까?

Mechanistic interpretability의 핵심 도구인 Lens 계열은 바로 이 질문에 답한다. 모델의 중간 hidden state를 사람이 읽을 수 있는 형태로 "투영"하여, layer마다 모델이 무엇을 생각하고 있는지 직접 관찰하는 것이다.

이 글에서는 가장 단순한 Logit Lens부터 학습 기반의 Tuned Lens까지, Transformer 내부를 읽는 방법의 발전 과정을 정리한다.

🔒

이어서 읽으려면 로그인이 필요합니다

무료 회원가입으로 전체 콘텐츠를 확인하세요.

관련 포스트