ASCIIアートを用いた毒性検出回避:モデレーションシステムに対する空間的攻撃のベンチマーク

ASCIIアートを用いた毒性検出回避:モデレーションシステムに対する空間的攻撃のベンチマーク

なぜ重要か: パフォーマンス指標が更新され、選定・置換の判断材料になります。

ソースを読む(export.arxiv.org)

arXiv:2409.18708v5発表種類:置換クロス

要約:本稿では、ASCIIアート形式の空間構造化テキストを言語モデルが解釈できない点を悪用した、毒性検出モデルに対する新規の敵対的攻撃手法を紹介する。この攻撃の有効性を評価するため、視覚的に隠蔽された入力に対する毒性検出システムの堅牢性を評価することを目的としたベンチマーク、ToxASCIIを提案する。本攻撃は、様々な最先端の大規模言語モデルと専用のモデレーションツールにおいて、完全な攻撃成功率(ASR)を達成し、現在のテキストのみのモデレーションシステムにおける重大な脆弱性を明らかにする。

原文(英語)を表示

Title (EN): Evading Toxicity Detection with ASCII-art: A Benchmark of Spatial Attacks on Moderation Systems

arXiv:2409.18708v5 Announce Type: replace-cross
Abstract: We introduce a novel class of adversarial attacks on toxicity detection models that exploit language models’ failure to interpret spatially structured text in the form of ASCII art. To evaluate the effectiveness of these attacks, we propose ToxASCII, a benchmark designed to assess the robustness of toxicity detection systems against visually obfuscated inputs. Our attacks achieve a perfect Attack Success Rate (ASR) across a diverse set of state-of-the-art large language models and dedicated moderation tools, revealing a significant vulnerability in current text-only moderation systems.

Published: 2025-09-24 19:00 UTC


コメントする