CyberSOCEval:マルウェア分析と脅威インテリジェンス推論におけるLLMの能力ベンチマーク

CyberSOCEval:マルウェア分析と脅威インテリジェンス推論におけるLLMの能力ベンチマーク

なぜ重要か: パフォーマンス指標が更新され、選定・置換の判断材料になります。

ソースを読む(export.arxiv.org)

arXiv:2509.20166v1発表形式:クロス

概要:今日のサイバー防衛担当者は、セキュリティアラート、脅威インテリジェンス信号、そして変化するビジネス状況の洪水に圧倒されており、運用セキュリティ業務を強化するためのAIシステムが緊急に必要とされています。大規模言語モデル(LLM)は、セキュリティオペレーションセンター(SOC)の運用を自動化およびスケールアップする可能性を秘めていますが、既存の評価では、現実世界の防衛担当者にとって最も関連性の高いシナリオを十分に評価していません。この情報に基づいた評価の不足は、AI開発者とSOCの自動化にLLMを適用する者の両方に影響を与えます。現実世界のセキュリティシナリオにおけるLLMのパフォーマンスに関する明確な洞察がないため、開発者は開発の方向性が定まらず、ユーザーは最も効果的なモデルを確実に選択できません。一方、悪意のある行為者はAIを使用してサイバー攻撃を拡大しており、防衛担当者とモデル開発者の間の採用とコミュニティ主導の改善を促進するために、オープンソースベンチマークが必要であることを浮き彫りにしています。これに対処するために、CyberSecEval 4 内に新しいオープンソースベンチマークスイートであるCyberSOCEval を導入します。CyberSOCEvalには、マルウェア分析と脅威インテリジェンス推論という2つのタスクにおいてLLMを評価するために調整されたベンチマークが含まれています。これは、現在のベンチマークでは十分な範囲がカバーされていない、中核的な防御ドメインです。私たちの評価では、より大きく、より近代的なLLMの方がパフォーマンスが優れている傾向があり、トレーニングスケーリング則のパラダイムを確認しています。また、テスト時スケーリングを活用した推論モデルは、コーディングや数学の場合と同様にブーストを実現しないこともわかりました。これは、これらのモデルがサイバーセキュリティ分析について推論するようにトレーニングされていないことを示唆しており、改善のための重要な機会を示しています。最後に、現在のLLMは私たちの評価を飽和させるには程遠く、CyberSOCEvalがAI開発者にとってサイバー防衛能力を向上させるための大きな課題を示していることを示しています。

原文(英語)を表示

Title (EN): CyberSOCEval: Benchmarking LLMs Capabilities for Malware Analysis and Threat Intelligence Reasoning

arXiv:2509.20166v1 Announce Type: cross
Abstract: Today’s cyber defenders are overwhelmed by a deluge of security alerts, threat intelligence signals, and shifting business context, creating an urgent need for AI systems to enhance operational security work. While Large Language Models (LLMs) have the potential to automate and scale Security Operations Center (SOC) operations, existing evaluations do not fully assess the scenarios most relevant to real-world defenders. This lack of informed evaluation impacts both AI developers and those applying LLMs to SOC automation. Without clear insight into LLM performance in real-world security scenarios, developers lack a north star for development, and users cannot reliably select the most effective models. Meanwhile, malicious actors are using AI to scale cyber attacks, highlighting the need for open source benchmarks to drive adoption and community-driven improvement among defenders and model developers. To address this, we introduce CyberSOCEval, a new suite of open source benchmarks within CyberSecEval 4. CyberSOCEval includes benchmarks tailored to evaluate LLMs in two tasks: Malware Analysis and Threat Intelligence Reasoning–core defensive domains with inadequate coverage in current benchmarks. Our evaluations show that larger, more modern LLMs tend to perform better, confirming the training scaling laws paradigm. We also find that reasoning models leveraging test time scaling do not achieve the same boost as in coding and math, suggesting these models have not been trained to reason about cybersecurity analysis, and pointing to a key opportunity for improvement. Finally, current LLMs are far from saturating our evaluations, showing that CyberSOCEval presents a significant challenge for AI developers to improve cyber defense capabilities.

Published: 2025-09-24 19:00 UTC


コメントする