bi-GRPO:大規模言語モデルへの脱獄バックドア注入のための双方向最適化
なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。
arXiv:2509.19775v1発表タイプ:クロス
要旨:大規模言語モデル(LLM)の急速な発展に伴い、特に脱獄バックドア攻撃に対する堅牢性が極めて重要になっている。既存の脱獄トリガー埋め込み手法(教師あり微調整(SFT)、モデル編集、人間のフィードバックからの強化学習(RLHF)など)は、汎化性能の低さ、隠密性の低下、または生成される脱獄応答の文脈的利用可能性の低下といった限界がある。これらの問題を克服するため、本稿では脱獄バックドア注入のために特化した新しいRLベースのフレームワークであるbi-GRPO(双方向グループ相対ポリシー最適化)を提案する。ペアワイズロールアウトとペアワイズ報酬を用いることで、bi-GRPOは、トリガーを用いて有害なコンテンツを確実に生成し、それ以外の場合は安全性を維持するようにモデルを共同最適化する。本手法は、高品質な教師ありデータセットまたは潜在的に欠陥のある報酬モデルへの依存を排除する、ルールベースの報酬メカニズムと長さおよび形式のインセンティブを組み合わせている。広範な実験により、bi-GRPOが優れた有効性(攻撃成功率>99%)、トリガー以外のシナリオにおける隠密性の維持、および高度に利用可能で首尾一貫した脱獄応答の生成を実現し、脱獄バックドア攻撃における最先端技術を大幅に前進させることが示された。
原文(英語)を表示
Title (EN): bi-GRPO: Bidirectional Optimization for Jailbreak Backdoor Injection on LLMs
arXiv:2509.19775v1 Announce Type: cross
Abstract: With the rapid advancement of large language models (LLMs), their robustness against adversarial manipulations, particularly jailbreak backdoor attacks, has become critically important. Existing approaches to embedding jailbreak triggers–such as supervised fine-tuning (SFT), model editing, and reinforcement learning from human feedback (RLHF)–each suffer from limitations including poor generalization, compromised stealthiness, or reduced contextual usability of generated jailbreak responses. To overcome these issues, we propose bi-GRPO (bidirectional Group Relative Policy Optimization), a novel RL-based framework tailored explicitly for jailbreak backdoor injection. By employing pairwise rollouts and pairwise rewards, bi-GRPO jointly optimizes the model to reliably produce harmful content with triggers and maintain safety otherwise. Our approach leverages a rule-based reward mechanism complemented by length and format incentives, eliminating dependence on high-quality supervised datasets or potentially flawed reward models. Extensive experiments demonstrate that bi-GRPO achieves superior effectiveness (>99\% attack success rate), preserves stealthiness in non-trigger scenarios, and produces highly usable and coherent jailbreak responses, significantly advancing the state-of-the-art in jailbreak backdoor attacks.
Published: 2025-09-24 19:00 UTC