整列型大規模言語モデルに対する意味表現攻撃
なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。
arXiv:2509.19360v1発表タイプ:クロス
概要:大規模言語モデル(LLM)は有害な出力を防ぐために、アライメント技術をますます採用しています。しかし、これらの安全策にもかかわらず、攻撃者は有害なコンテンツを生成させるプロンプトを作成することで、それらを回避することができます。
現在の方法は、通常、「はい、ここに…があります」など、正確な肯定的な回答をターゲットとしており、収束性の低さ、不自然なプロンプト、および高い計算コストという問題を抱えています。
本研究では、アライメントされたLLMに対する敵対的目標を根本的に再考する新しいパラダイムであるSemantic Representation Attackを提案します。
本手法は、正確なテキストパターンをターゲットとするのではなく、同等の有害な意味を持つ多様な応答を含む意味表現空間を利用します。
この革新は、既存の方法を悩ませてきた攻撃効果とプロンプトの自然さの間のトレードオフを解決します。
Semantic Representation Heuristic Searchアルゴリズムを提案し、増分拡張中に解釈可能性を維持することで、意味的に一貫性があり簡潔な敵対的プロンプトを効率的に生成します。
意味的収束に関する厳密な理論的保証を確立し、本手法が、ステルス性と効率性を維持しながら、前例のない攻撃成功率(18のLLM全体で平均89.41%、11モデルでは100%)を達成することを示します。
包括的な実験結果により、Semantic Representation Attackの全体的な優位性が確認されました。
コードは公開される予定です。
原文(英語)を表示
Title (EN): Semantic Representation Attack against Aligned Large Language Models
arXiv:2509.19360v1 Announce Type: cross
Abstract: Large Language Models (LLMs) increasingly employ alignment techniques to prevent harmful outputs. Despite these safeguards, attackers can circumvent them by crafting prompts that induce LLMs to generate harmful content.
Current methods typically target exact affirmative responses, such as “Sure, here is…”, suffering from limited convergence, unnatural prompts, and high computational costs.
We introduce Semantic Representation Attack, a novel paradigm that fundamentally reconceptualizes adversarial objectives against aligned LLMs.
Rather than targeting exact textual patterns, our approach exploits the semantic representation space comprising diverse responses with equivalent harmful meanings.
This innovation resolves the inherent trade-off between attack efficacy and prompt naturalness that plagues existing methods.
The Semantic Representation Heuristic Search algorithm is proposed to efficiently generate semantically coherent and concise adversarial prompts by maintaining interpretability during incremental expansion.
We establish rigorous theoretical guarantees for semantic convergence and demonstrate that our method achieves unprecedented attack success rates (89.41\% averaged across 18 LLMs, including 100\% on 11 models) while maintaining stealthiness and efficiency.
Comprehensive experimental results confirm the overall superiority of our Semantic Representation Attack.
The code will be publicly available.
Published: 2025-09-24 19:00 UTC