意味論的認識ファジング:LLM誘導型推論駆動入力変異のための経験的フレームワーク

意味論的認識ファジング:LLM誘導型推論駆動入力変異のための経験的フレームワーク

なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。

ソースを読む(export.arxiv.org)

arXiv:2509.19533v1発表タイプ:クロス

要約:IoTデバイス、モバイルプラットフォーム、自律システムにおけるセキュリティ脆弱性は依然として深刻な問題である。従来の変異ベースのファジングツールは、コードパスを効果的に探索する一方で、主にバイトレベルまたはビットレベルの編集を行い、セマンティックな推論を行わない。AFL++などのカバレッジガイド型ツールは、辞書、文法、スプライシングヒューリスティックを使用して浅い構造的制約を課すが、より深いプロトコルロジック、フィールド間の依存関係、ドメイン固有のセマンティクスには対処しない。逆に、推論可能な大規模言語モデル(LLM)は、事前学習された知識を活用して入力フォーマットを理解し、複雑な制約を尊重し、経験豊富なリバースエンジニアやテスト専門家のようにターゲットを絞った変異を提案できる。しかし、「正しい」変異推論の真値が不足しているため、教師ありファインチューニングは非現実的であり、プロンプトベースの少ショット学習による既製のLLMの探求を促進する。このギャップを埋めるため、GoogleのFuzzBench上で推論LLMとAFL++を統合するオープンソースのマイクロサービスフレームワークを発表する。これは、LLMとファザーのア同期実行と異なるハードウェア要件(GPU集約型とCPU集約型)に対処する。4つの研究課題を評価する:(R1)推論LLMをファジング変異ループにどのように統合できるか?(R2)少ショットプロンプトはゼロショットよりも高品質な変異をもたらすか?(R3)既製モデルによるプロンプトエンジニアリングはファジングを直接改善できるか?(R4)プロンプトのみの条件下で、どのオープンソースの推論LLMが最良のパフォーマンスを示すか?Llama 3.3、Deepseek-r1-Distill-Llama-70B、QwQ-32B、Gemma3を用いた実験では、Deepseekが最も有望であることが明らかになった。変異の有効性は、ショット数よりもプロンプトの複雑さとモデルの選択に依存する。応答レイテンシとスループットのボトルネックは依然として主要な障害であり、今後の研究の方向性を示している。

原文(英語)を表示

Title (EN): Semantic-Aware Fuzzing: An Empirical Framework for LLM-Guided, Reasoning-Driven Input Mutation

arXiv:2509.19533v1 Announce Type: cross
Abstract: Security vulnerabilities in Internet-of-Things devices, mobile platforms, and autonomous systems remain critical. Traditional mutation-based fuzzers — while effectively explore code paths — primarily perform byte- or bit-level edits without semantic reasoning. Coverage-guided tools such as AFL++ use dictionaries, grammars, and splicing heuristics to impose shallow structural constraints, leaving deeper protocol logic, inter-field dependencies, and domain-specific semantics unaddressed. Conversely, reasoning-capable large language models (LLMs) can leverage pretraining knowledge to understand input formats, respect complex constraints, and propose targeted mutations, much like an experienced reverse engineer or testing expert. However, lacking ground truth for “correct” mutation reasoning makes supervised fine-tuning impractical, motivating explorations of off-the-shelf LLMs via prompt-based few-shot learning. To bridge this gap, we present an open-source microservices framework that integrates reasoning LLMs with AFL++ on Google’s FuzzBench, tackling asynchronous execution and divergent hardware demands (GPU- vs. CPU-intensive) of LLMs and fuzzers. We evaluate four research questions: (R1) How can reasoning LLMs be integrated into the fuzzing mutation loop? (R2) Do few-shot prompts yield higher-quality mutations than zero-shot? (R3) Can prompt engineering with off-the-shelf models improve fuzzing directly? and (R4) Which open-source reasoning LLMs perform best under prompt-only conditions? Experiments with Llama3.3, Deepseek-r1-Distill-Llama-70B, QwQ-32B, and Gemma3 highlight Deepseek as the most promising. Mutation effectiveness depends more on prompt complexity and model choice than shot count. Response latency and throughput bottlenecks remain key obstacles, offering directions for future work.

Published: 2025-09-24 19:00 UTC


コメントする