大規模言語モデルに対するガスライティング攻撃のベンチマーク
なぜ重要か: パフォーマンス指標が更新され、選定・置換の判断材料になります。
arXiv:2509.19858v1発表、新規。
概要:音声大規模言語モデル(Speech LLMs)が音声ベースのアプリケーションにますます統合されるにつれて、操作的または敵対的な入力に対する堅牢性を確保することが重要になっている。先行研究では、テキストベースのLLMやビジョン言語モデルにおける敵対的攻撃が研究されているが、音声ベースのインタラクション特有の認知的および知覚的な課題は、まだ十分に検討されていない。音声は、固有の曖昧性、連続性、および知覚的多様性を持ち、そのため敵対的攻撃の検出がより困難になる。本論文では、モデルの推論を誤導、上書き、または歪めるように戦略的に作成されたプロンプトであるガスライティング攻撃を紹介し、Speech LLMsの脆弱性を評価する手段とする。具体的には、モデルの堅牢性を様々なタスクでテストするために、怒り、認知的混乱、皮肉、暗黙的、および専門的否定という5つの操作戦略を構築する。本フレームワークは、性能低下と、一方的な謝罪や拒否などの行動反応の両方を捉え、感受性の異なる次元を診断することに留意すべきである。さらに、マルチモーダルな堅牢性を評価するために、音響摂動実験を実施した。モデルの脆弱性を定量化するために、5つの異なるデータセットからの10,000以上のテストサンプルを用いて、5つのSpeechおよびマルチモーダルLLMにおいて包括的な評価を実施した結果、5つのガスライティング攻撃下で平均24.3%の精度低下が明らかになり、著しい行動的脆弱性が示された。これらの知見は、より強靭で信頼できる音声ベースのAIシステムの必要性を浮き彫りにしている。
原文(英語)を表示
Title (EN): Benchmarking Gaslighting Attacks Against Speech Large Language Models
arXiv:2509.19858v1 Announce Type: new
Abstract: As Speech Large Language Models (Speech LLMs) become increasingly integrated into voice-based applications, ensuring their robustness against manipulative or adversarial input becomes critical. Although prior work has studied adversarial attacks in text-based LLMs and vision-language models, the unique cognitive and perceptual challenges of speech-based interaction remain underexplored. In contrast, speech presents inherent ambiguity, continuity, and perceptual diversity, which make adversarial attacks more difficult to detect. In this paper, we introduce gaslighting attacks, strategically crafted prompts designed to mislead, override, or distort model reasoning as a means to evaluate the vulnerability of Speech LLMs. Specifically, we construct five manipulation strategies: Anger, Cognitive Disruption, Sarcasm, Implicit, and Professional Negation, designed to test model robustness across varied tasks. It is worth noting that our framework captures both performance degradation and behavioral responses, including unsolicited apologies and refusals, to diagnose different dimensions of susceptibility. Moreover, acoustic perturbation experiments are conducted to assess multi-modal robustness. To quantify model vulnerability, comprehensive evaluation across 5 Speech and multi-modal LLMs on over 10,000 test samples from 5 diverse datasets reveals an average accuracy drop of 24.3% under the five gaslighting attacks, indicating significant behavioral vulnerability. These findings highlight the need for more resilient and trustworthy speech-based AI systems.
Published: 2025-09-24 19:00 UTC