LatentGuard:堅牢な攻撃拒否と信頼性の高い応答生成のための制御可能な潜在変数制御
なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。
arXiv:2509.19839v1 発表種別:新規
要旨:大規模言語モデル(LLM)において、堅牢な安全性と有用性を両立させることは依然として根本的な課題である。既存のアプローチは、包括的な安全性と表現レベルにおけるきめ細やかな制御可能性のバランスを取ることが難しいことが多い。本稿では、解釈可能で正確な安全制御のために、行動整合と教師あり潜在空間制御を組み合わせた新規の3段階フレームワーク、LATENTGUARDを提案する。本アプローチは、敵対的プロンプトに対する推論強化拒否応答と良性クエリに対する推論強化正常応答の両方を含む合理化されたデータセットでLLMを微調整することから始まる。これにより、安全性が重要なシナリオと有用性を維持するシナリオの両方において、堅牢な行動事前確率が確立される。次に、多ラベル注釈(攻撃の種類、攻撃手法、良性指標を含む)によって教師あり学習された構造化変分オートエンコーダ(VAE)を中間MLP活性化で訓練する。この教師あり学習により、VAEは、意味的解釈可能性を維持しながら、異なる敵対的特性を捉える分離された潜在表現を学習する。学習された潜在次元をターゲットとした操作を通じて、LATENTGUARDは選択的な拒否行動を実現し、有害な要求を効果的にブロックしながら、正当なユースケースに対する有益性を維持する。Qwen3-8Bに関する実験では、有用性を損なうことなく、安全性制御可能性と応答解釈可能性の両方が大幅に向上することが示された。Mistral-7Bを用いたクロスアーキテクチャ検証により、潜在制御アプローチの汎化可能性が確認され、異なるモデルファミリ間で一貫した有効性が示された。これらの結果は、構造化された表現レベルの介入が、より安全で実用的なLLMシステム構築に向けた有望な方法であることを示唆している。
原文(英語)を表示
Title (EN): LatentGuard: Controllable Latent Steering for Robust Refusal of Attacks and Reliable Response Generation
arXiv:2509.19839v1 Announce Type: new
Abstract: Achieving robust safety alignment in large language models (LLMs) while preserving their utility remains a fundamental challenge. Existing approaches often struggle to balance comprehensive safety with fine-grained controllability at the representation level. We introduce LATENTGUARD, a novel three-stage framework that combines behavioral alignment with supervised latent space control for interpretable and precise safety steering. Our approach begins by fine-tuning an LLM on rationalized datasets containing both reasoning-enhanced refusal responses to adversarial prompts and reasoning-enhanced normal responses to benign queries, establishing robust behavioral priors across both safety-critical and utility-preserving scenarios. We then train a structured variational autoencoder (VAE) on intermediate MLP activations, supervised by multi-label annotations including attack types, attack methods, and benign indicators. This supervision enables the VAE to learn disentangled latent representations that capture distinct adversarial characteristics while maintaining semantic interpretability. Through targeted manipulation of learned latent dimensions, LATENTGUARD achieves selective refusal behavior, effectively blocking harmful requests while preserving helpfulness for legitimate use cases. Experiments on Qwen3-8B demonstrate significant improvements in both safety controllability and response interpretability without compromising utility. Cross-architecture validation on Mistral-7B confirms the generalizability of our latent steering approach, showing consistent effectiveness across different model families. Our results suggest that structured representation-level intervention offers a promising pathway toward building safer yet practical LLM systems.
Published: 2025-09-24 19:00 UTC