整列プロービング:有害な行動とモデル内部の関連付け
なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。
arXiv:2503.13390v2 発表種別:置換
要旨:本稿では、言語モデル(LM)の出力と内部表現(内部状態)に基づき、その挙動を整合させる新たな解釈可能性フレームワークである「アラインド・プロービング」を提案する。このフレームワークを用いて、20以上のOLMo、Llama、Mistralモデルを検証し、初めて毒性に関する行動面と内部状態の両面からの考察を行う。その結果、LMは特に下位層において、入力とそれに続く出力の毒性レベルに関する情報を強く符号化していることが示された。個々のLMの違いに焦点を当てることで、入力毒性に関する情報を強く符号化すると、毒性の低い出力が生成されるという相関関係と因果関係の両方の証拠が得られた。また、脅威などの固有属性においてモデルの挙動と内部状態が異なることから、毒性の異質性を明らかにする。最後に、解毒、マルチプロンプト評価、モデル量子化、事前学習ダイナミクスに関する4つの事例研究を通して、アラインド・プロービングの実用的な影響と具体的な知見を強調する。これらの知見は、毒性の文脈にとどまらず、LMのより包括的な理解に貢献する。
原文(英語)を表示
Title (EN): Aligned Probing: Relating Toxic Behavior and Model Internals
arXiv:2503.13390v2 Announce Type: replace
Abstract: We introduce aligned probing, a novel interpretability framework that aligns the behavior of language models (LMs), based on their outputs, and their internal representations (internals). Using this framework, we examine over 20 OLMo, Llama, and Mistral models, bridging behavioral and internal perspectives for toxicity for the first time. Our results show that LMs strongly encode information about the toxicity level of inputs and subsequent outputs, particularly in lower layers. Focusing on how unique LMs differ offers both correlative and causal evidence that they generate less toxic output when strongly encoding information about the input toxicity. We also highlight the heterogeneity of toxicity, as model behavior and internals vary across unique attributes such as Threat. Finally, four case studies analyzing detoxification, multi-prompt evaluations, model quantization, and pre-training dynamics underline the practical impact of aligned probing with further concrete insights. Our findings contribute to a more holistic understanding of LMs, both within and beyond the context of toxicity.
Published: 2025-09-24 19:00 UTC