Sharp Minimaを超える:フィードバック誘導型多点最適化による堅牢なLLMアンラーニング
なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。
arXiv:2509.20230v1発表タイプ:クロス
要約:現在のLLMアンラーニング手法は、その根本的な目的を損なう重大なセキュリティ脆弱性に直面しています。機密情報や有害な知識を正常に削除したように見える一方で、この「忘れられた」情報は、再学習攻撃を通じて容易に回復可能です。その根本原因は、従来の手法が個々のデータポイントにおける忘却損失を最適化することで、損失空間における鋭い極小値にモデルパラメータを導くことです。これらの不安定な領域では、パラメータのわずかな摂動でもモデルの挙動が劇的に変化します。その結果、再学習攻撃は、これらの不安定な領域を取り巻く急峻な勾配をたどるために、ほんの一部の微調整サンプルを利用することで、この脆弱性を悪用し、削除されたはずの知識を迅速に回復します。これは、見かけ上のアンラーニングと実際の知識削除との間の重要な堅牢性のギャップを露呈しています。この問題に対処するため、本稿では、近傍認識最適化を通じてより安定したパラメータ領域を明示的に求める、二段階フィードバック誘導最適化フレームワークであるStableUNを提案します。これは、パラメータ近傍を調査するための敵対的摂動を用いた忘却フィードバックと、モデルの有用性を維持するための想起フィードバックを統合し、勾配射影を通じてこれら2つの目標を整合させます。WMDPおよびMUSEベンチマークにおける実験により、本手法は再学習攻撃とジェイルブレイキング攻撃の両方に対して大幅に堅牢でありながら、競争力のある有用性性能を維持することが示されました。
原文(英語)を表示
Title (EN): Beyond Sharp Minima: Robust LLM Unlearning via Feedback-Guided Multi-Point Optimization
arXiv:2509.20230v1 Announce Type: cross
Abstract: Current LLM unlearning methods face a critical security vulnerability that undermines their fundamental purpose: while they appear to successfully remove sensitive or harmful knowledge, this “forgotten” information remains precariously recoverable through relearning attacks. We identify that the root cause is that conventional methods optimizing the forgetting loss at individual data points will drive model parameters toward sharp minima in the loss landscape. In these unstable regions, even minimal parameter perturbations can drastically alter the model’s behaviors. Consequently, relearning attacks exploit this vulnerability by using just a few fine-tuning samples to navigate the steep gradients surrounding these unstable regions, thereby rapidly recovering knowledge that was supposedly erased. This exposes a critical robustness gap between apparent unlearning and actual knowledge removal. To address this issue, we propose StableUN, a bi-level feedback-guided optimization framework that explicitly seeks more stable parameter regions via neighborhood-aware optimization. It integrates forgetting feedback, which uses adversarial perturbations to probe parameter neighborhoods, with remembering feedback to preserve model utility, aligning the two objectives through gradient projection. Experiments on WMDP and MUSE benchmarks demonstrate that our method is significantly more robust against both relearning and jailbreaking attacks while maintaining competitive utility performance.
Published: 2025-09-24 19:00 UTC