GuessingGame:大規模言語モデルにおける開放型質問の情報量測定
なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。
arXiv:2509.19593v1発表タイプ:クロス
要約:本稿では、オープンエンドかつオープンなドメイン設定において、大規模言語モデル(LLM)を戦略的な質問者として評価するためのプロトコル、GuessingGameを紹介する。Guesser LLMは、事前に定義された選択肢や候補リストなしに、Oracleに対して自由形式の質問をすることで隠された対象物を特定する。質問の質を測定するために、2つの情報利得(IG)指標を提案する。1つは、LLMでスコア付けされた関連性を使用して意味概念上の信念更新を追跡するベイズ法であり、もう1つはConceptNetを介して候補をフィルタリングするエントロピーベースの方法である。どちらの指標もモデル非依存であり、事後分析をサポートする。複数のモデルとプロンプティング戦略を用いた858ゲーム全体において、より高いIGは効率性を強く予測する。標準偏差1増加分のIG増加は、予想されるゲームの長さを43%削減する。IGによって導かれる、質問の多様性の強制などのプロンプティングの制約は、より弱いモデルのパフォーマンスを大幅に向上させる。これらの結果は、LLMにおける質問は測定可能であり、改善可能であり、インタラクティブな推論に不可欠であることを示している。
原文(英語)を表示
Title (EN): GuessingGame: Measuring the Informativeness of Open-Ended Questions in Large Language Models
arXiv:2509.19593v1 Announce Type: cross
Abstract: We introduce GuessingGame, a protocol for evaluating large language models (LLMs) as strategic question-askers in open-ended, open-domain settings. A Guesser LLM identifies a hidden object by posing free-form questions to an Oracle without predefined choices or candidate lists. To measure question quality, we propose two information gain (IG) metrics: a Bayesian method that tracks belief updates over semantic concepts using LLM-scored relevance, and an entropy-based method that filters candidates via ConceptNet. Both metrics are model-agnostic and support post hoc analysis. Across 858 games with multiple models and prompting strategies, higher IG strongly predicts efficiency: a one-standard-deviation IG increase reduces expected game length by 43\%. Prompting constraints guided by IG, such as enforcing question diversity, enable weaker models to significantly improve performance. These results show that question-asking in LLMs is both measurable and improvable, and crucial for interactive reasoning.
Published: 2025-09-24 19:00 UTC