部分観測下における堅牢な侵入テストポリシーの学習:体系的評価
なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。
arXiv:2509.20008v1発表形式:新規
要約:セキュリティ脆弱性を特定するためのサイバー攻撃シミュレーションである侵入テストは、強化学習(RL)による自動化に適した逐次的意思決定問題を示している。多くの現実世界の問題へのRL適用と同様に、部分観測可能性はマルコフ決定過程(MDP)に存在するマルコフ性を無効にするため、大きな課題となっている。部分観測可能なMDPでは、成功したポリシーを学習するために履歴集約または信念状態推定が必要となる。本研究では、より困難で代表的なベンチマークを通じて現実世界の複雑性をより反映することを目指し、様々な規模のホストネットワーク上で確率的な部分観測可能な侵入テストシナリオを調査する。このアプローチにより、多様で予測不可能な現実世界の環境において信頼性の高いパフォーマンスを確保するために不可欠な、より堅牢で転移可能なポリシーの開発につながる。ベンチマークとして、標準的なProximal Policy Optimization(PPO)を用い、フレームスタッキング、履歴情報の観測への追加、再帰型またはトランスフォーマーベースのアーキテクチャを含む、部分観測可能性を軽減するように設計されたPPOのバリアントを選択して比較する。異なるホストネットワークサイズにおいて、これらのアルゴリズムの体系的な経験的分析を行う。本タスクは履歴集約から大きな恩恵を受け、他のアプローチよりも3倍高速に収束することが判明した。アルゴリズムによって学習されたポリシーの手動検査は、明確な違いを明らかにし、定量的結果を超えた知見を提供する。
原文(英語)を表示
Title (EN): Learning Robust Penetration-Testing Policies under Partial Observability: A systematic evaluation
arXiv:2509.20008v1 Announce Type: new
Abstract: Penetration testing, the simulation of cyberattacks to identify security vulnerabilities, presents a sequential decision-making problem well-suited for reinforcement learning (RL) automation. Like many applications of RL to real-world problems, partial observability presents a major challenge, as it invalidates the Markov property present in Markov Decision Processes (MDPs). Partially Observable MDPs require history aggregation or belief state estimation to learn successful policies. We investigate stochastic, partially observable penetration testing scenarios over host networks of varying size, aiming to better reflect real-world complexity through more challenging and representative benchmarks. This approach leads to the development of more robust and transferable policies, which are crucial for ensuring reliable performance across diverse and unpredictable real-world environments. Using vanilla Proximal Policy Optimization (PPO) as a baseline, we compare a selection of PPO variants designed to mitigate partial observability, including frame-stacking, augmenting observations with historical information, and employing recurrent or transformer-based architectures. We conduct a systematic empirical analysis of these algorithms across different host network sizes. We find that this task greatly benefits from history aggregation. Converging three times faster than other approaches. Manual inspection of the learned policies by the algorithms reveals clear distinctions and provides insights that go beyond quantitative results.
Published: 2025-09-24 19:00 UTC