知識の効率的な注入方法:大規模言語モデル事前学習のための知識注入スケーリング則
なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。
arXiv:2509.19371v1発表種別:クロス
要約:大規模言語モデル(LLM)は、多様な下流タスクにおける優れた汎用能力により注目を集めている。しかし、ドメイン固有の最適化を施さなければ、専門知識ベンチマークにおいてしばしば性能が劣り、幻覚を生じる場合もある。最近の研究では、事前学習中に戦略的にドメイン知識を注入することで、下流タスクにおける性能を大幅に向上できることが示されている。重要な課題は、この注入におけるトレードオフのバランスにある。ドメイン固有データの注入が少なすぎると専門化が不十分となり、過剰な注入は以前に獲得した知識の壊滅的な忘却を引き起こす。本研究では、過剰注入によって誘発されるメモリ崩壊現象に焦点を当てる。体系的な実験を通じて、以下の2つの重要な知見を得た。1)臨界崩壊点:各モデルには、知識保持能力が急激に低下する閾値が存在する。2)規模相関:これらの崩壊点はモデルのサイズと一貫して相関する。これらの知見に基づき、より小規模なモデルを分析することで、大規模LLMに注入する最適なドメイン知識量を予測する知識注入スケーリング則を提案する。異なるモデルサイズと関連トークン予算全体にわたる広範な実験により、提案するスケーリング則の有効性と汎化可能性を検証する。
原文(英語)を表示
Title (EN): How to inject knowledge efficiently? Knowledge Infusion Scaling Law for Pre-training Large Language Models
arXiv:2509.19371v1 Announce Type: cross
Abstract: Large language models (LLMs) have attracted significant attention due to their impressive general capabilities across diverse downstream tasks. However, without domain-specific optimization, they often underperform on specialized knowledge benchmarks and even produce hallucination. Recent studies show that strategically infusing domain knowledge during pretraining can substantially improve downstream performance. A critical challenge lies in balancing this infusion trade-off: injecting too little domain-specific data yields insufficient specialization, whereas excessive infusion triggers catastrophic forgetting of previously acquired knowledge. In this work, we focus on the phenomenon of memory collapse induced by over-infusion. Through systematic experiments, we make two key observations, i.e. 1) Critical collapse point: each model exhibits a threshold beyond which its knowledge retention capabilities sharply degrade. 2) Scale correlation: these collapse points scale consistently with the model’s size. Building on these insights, we propose a knowledge infusion scaling law that predicts the optimal amount of domain knowledge to inject into large LLMs by analyzing their smaller counterparts. Extensive experiments across different model sizes and pertaining token budgets validate both the effectiveness and generalizability of our scaling law.
Published: 2025-09-24 19:00 UTC