包括的な回答による情報ギャップの解消:フォローアップ質問の多様性と情報量の向上

包括的な回答による情報ギャップの解消:フォローアップ質問の多様性と情報量の向上

なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。

ソースを読む(export.arxiv.org)

arXiv:2502.17715v2 発表種別:差し替え
要旨:不足情報を明らかにする多様な追跡質問の生成は、特に小規模なローカルホスト型モデルを使用する場合、会話エージェントにとって依然として困難な課題です。これに対処するため、教師LLMが包括的な回答を生成し、それを初期回答と比較して情報ギャップを特定し、ギャップを埋める追跡質問を作成する、情報ギャップ駆動型知識蒸留パイプラインを開発しました。このパイプラインを使用して、既存のFollowupQGデータセットを10倍に拡張しました。その後、拡張されたデータセットでより小規模な生徒モデルを微調整し、教師の知識を蒸留しました。選択された教師・生徒モデルペアを用いた実験により、微調整された生徒モデルは、元のデータセットで訓練された変種と比較して、有意に高い情報量と多様性を達成することが示されました。これらの知見は、情報探索における人間の認知プロセスを反映した当社のパイプラインが、最先端のLLMから小規模モデルへの効率的な蒸留チャネルを提供し、リソースに制約のある会話システムがより多様で有益な追跡質問を生成することを可能にすることを示しています。

原文(英語)を表示

Title (EN): Bridging Information Gaps with Comprehensive Answers: Improving the Diversity and Informativeness of Follow-Up Questions

arXiv:2502.17715v2 Announce Type: replace-cross
Abstract: Generating diverse follow-up questions that uncover missing information remains challenging for conversational agents, particularly when they run on small, locally hosted models. To address this, we develop an information-gap-driven knowledge distillation pipeline in which a teacher LLM generates a comprehensive answer, contrasts it with the initial answer to identify information gaps, and formulates gap-bridging follow-up questions. Using this pipeline, we augment the existing FollowupQG dataset tenfold. We then fine-tune smaller student models on the augmented dataset to distill the teacher’s knowledge. Experiments with selected teacher-student model pairs show that fine-tuned students achieve significantly higher informativeness and diversity than variations trained on the original dataset. These findings indicate that our pipeline, which mirrors the human cognitive process of information seeking, provides an efficient distillation channel from state-of-the-art LLMs to smaller models, enabling resource-constrained conversational systems to generate more diverse and informative follow-up questions.

Published: 2025-09-24 19:00 UTC


コメントする