強化学習による拡張生成からの学習を通じた大規模言語モデルへのドメイン知識の埋め込み

強化学習による拡張生成からの学習を通じた大規模言語モデルへのドメイン知識の埋め込み

なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。

ソースを読む(export.arxiv.org)

arXiv:2509.20162v1発表形式:クロス

概要:大規模言語モデル(LLM)は、訓練データにおける専門情報の偏った表現とデータセットの静的な性質により、特定分野のタスクにおいて性能が制限されることが多い。知識の不足と時間的な遅れが、専門分野への応用において知識のギャップを生み出す。ドメインデータセットによる事後学習はモデルに知識を埋め込むことができるものの、既存のアプローチにはいくつかの限界がある。継続的事前学習(CPT)はドメイン文書内の全てのトークンを同等に重要視し、重要な知識点を優先的に扱うことができない一方、質問応答ペアを用いた教師ありファインチューニング(SFT)は、複雑な推論タスクに必要な一貫性のある知識構造を構築することに苦労する。これらの課題に対処するため、本稿では、拡張生成からの強化学習(RLAG)を提案する。本手法は、生成のサンプリングと計算された報酬によるモデルの最適化を繰り返し行うことで、重要かつ文脈的に一貫性のあるドメイン知識を効果的に埋め込む。対数確率が最も高い生成出力をサンプリング結果として選択し、最適化プロセスを導くために3つの調整された報酬指標を計算する。ドメイン専門知識を包括的に評価するために、正答に対する回答の正確性と説明の合理性を評価する。医学、法律、天文学、時事ニュースのデータセットにおける実験結果から、提案手法がベースラインアプローチを大幅に上回ることを実証した。コードとデータはhttps://github.com/ChaojunNie/RLAGで公開している。

原文(英語)を表示

Title (EN): Embedding Domain Knowledge for Large Language Models via Reinforcement Learning from Augmented Generation

arXiv:2509.20162v1 Announce Type: cross
Abstract: Large language models (LLMs) often exhibit limited performance on domain-specific tasks due to the natural disproportionate representation of specialized information in their training data and the static nature of these datasets. Knowledge scarcity and temporal lag create knowledge gaps for domain applications. While post-training on domain datasets can embed knowledge into models, existing approaches have some limitations. Continual Pre-Training (CPT) treats all tokens in domain documents with equal importance, failing to prioritize critical knowledge points, while supervised fine-tuning (SFT) with question-answer pairs struggles to develop the coherent knowledge structures necessary for complex reasoning tasks. To address these challenges, we propose Reinforcement Learning from Augmented Generation (RLAG). Our approach iteratively cycles between sampling generations and optimizing the model through calculated rewards, effectively embedding critical and contextually coherent domain knowledge. We select generated outputs with the highest log probabilities as the sampling result, then compute three tailored reward metrics to guide the optimization process. To comprehensively evaluate domain expertise, we assess answer accuracy and the rationality of explanations generated for correctly answered questions. Experimental results across medical, legal, astronomy, and current events datasets demonstrate that our proposed method significantly outperforms baseline approaches. Our code and data are open sourced at https://github.com/ChaojunNie/RLAG.

Published: 2025-09-24 19:00 UTC


コメントする