知識の香り:情報探索による検索強化推論の最適化
なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。
arXiv:2505.09316v2発表種類:差し替え
要旨:大規模言語モデル(LLM)に外部検索機能を追加することは、その固有の知識の限界に対処するための標準的な手法となっている。しかし、従来の検索拡張型生成手法は、推論前の静的な検索戦略を採用しており、曖昧で複数ステップにわたる、あるいは変化する情報ニーズを伴う複雑なタスクには不適切である。最近のテスト時スケーリング技術の進歩は、LLMが外部ツールと動的にインタラクトすることを可能にする上で大きな可能性を示しており、適応的な推論時検索への転換を促している。情報探索理論(IFT)に着想を得て、本稿では、検索拡張型推論を動的な情報探索プロセスとして定式化する強化学習フレームワーク、InForageを提案する。既存の手法とは異なり、InForageは中間検索の質を明確に報酬としており、LLMが適応的な検索行動を通じて情報を反復的に収集し統合することを促す。訓練を容易にするために、複雑な現実世界のWebタスクにおける反復的な検索と推論の軌跡を捉えた、人間主導のデータセットを作成した。一般的な質問応答、多段階推論タスク、そして新たに開発されたリアルタイムWeb QAデータセットにおける広範な評価により、InForageがベースライン手法よりも優れた性能を示すことが実証された。これらの結果は、堅牢で適応性があり、効率的な推論エージェントを構築する上でのInForageの有効性を強調している。
原文(英語)を表示
Title (EN): Scent of Knowledge: Optimizing Search-Enhanced Reasoning with Information Foraging
arXiv:2505.09316v2 Announce Type: replace
Abstract: Augmenting large language models (LLMs) with external retrieval has become a standard method to address their inherent knowledge cutoff limitations. However, traditional retrieval-augmented generation methods employ static, pre-inference retrieval strategies, making them inadequate for complex tasks involving ambiguous, multi-step, or evolving information needs. Recent advances in test-time scaling techniques have demonstrated significant potential in enabling LLMs to dynamically interact with external tools, motivating the shift toward adaptive inference-time retrieval. Inspired by Information Foraging Theory (IFT), we propose InForage, a reinforcement learning framework that formalizes retrieval-augmented reasoning as a dynamic information-seeking process. Unlike existing approaches, InForage explicitly rewards intermediate retrieval quality, encouraging LLMs to iteratively gather and integrate information through adaptive search behaviors. To facilitate training, we construct a human-guided dataset capturing iterative search and reasoning trajectories for complex, real-world web tasks. Extensive evaluations across general question answering, multi-hop reasoning tasks, and a newly developed real-time web QA dataset demonstrate InForage’s superior performance over baseline methods. These results highlight InForage’s effectiveness in building robust, adaptive, and efficient reasoning agents.
Published: 2025-09-24 19:00 UTC