DyBBT:認知的二重システムを用いた対話ポリシーのためのバンディット型ターゲティングによる動的バランス

DyBBT:認知的二重システムを用いた対話ポリシーのためのバンディット型ターゲティングによる動的バランス

なぜ重要か: 法規制・制度面での動きが企業のAI活用に直接影響する可能性があります。

ソースを読む(export.arxiv.org)

arXiv:2509.19695v1発表タイプ:クロス

概要:タスク指向型対話システムは、動的な対話コンテキストに適応しない静的な探索戦略に依存することが多く、非効率的な探索と最適以下のパフォーマンスにつながります。本研究では、対話の進行、ユーザの不確実性、スロット依存性を捉える構造化された認知状態空間を通じて探索の課題を定式化する、新規な対話ポリシー学習フレームワークDyBBTを提案します。DyBBTは、リアルタイムの認知状態と訪問回数に基づいて、高速な直感的な推論(システム1)と低速な熟慮的な推論(システム2)を動的に切り替えるバンディットに着想を得たメタコントローラを提案します。シングルドメインおよびマルチドメインベンチマークにおける広範な実験により、DyBBTは成功率、効率性、汎化性能において最先端の性能を達成し、ヒューマンエバリュエーションによりその決定が専門家の判断とよく一致することが確認されました。コードはhttps://github.com/carsonz/DyBBTで公開されています。

原文(英語)を表示

Title (EN): DyBBT: Dynamic Balance via Bandit inspired Targeting for Dialog Policy with Cognitive Dual-Systems

arXiv:2509.19695v1 Announce Type: cross
Abstract: Task oriented dialog systems often rely on static exploration strategies that do not adapt to dynamic dialog contexts, leading to inefficient exploration and suboptimal performance. We propose DyBBT, a novel dialog policy learning framework that formalizes the exploration challenge through a structured cognitive state space capturing dialog progression, user uncertainty, and slot dependency. DyBBT proposes a bandit inspired meta-controller that dynamically switches between a fast intuitive inference (System 1) and a slow deliberative reasoner (System 2) based on real-time cognitive states and visitation counts. Extensive experiments on single- and multi-domain benchmarks show that DyBBT achieves state-of-the-art performance in success rate, efficiency, and generalization, with human evaluations confirming its decisions are well aligned with expert judgment. Code is available at https://github.com/carsonz/DyBBT.

Published: 2025-09-24 19:00 UTC


コメントする