高度専門化による省庁の能力向上

高度専門化による省庁の能力向上

なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。

ソースを読む(export.arxiv.org)

arXiv:2505.22323v2 発表種別:差し替え

要約:Mixture-of-Experts (MoE) モデルは、入力ごとに専門家のサブセットのみを活性化することで、大規模言語モデル (LLM) の効率的なスケーリングを可能にします。しかし、一般的に用いられる補助的な負荷分散損失は、専門家の重複と過度に均一なルーティングを引き起こし、トレーニング後の専門性の向上を妨げ、全体的な性能を低下させることが観察されています。これに対処するため、本稿では、2つの補完的な目的関数を導入するというシンプルながらも効果的な解決策を提案します。(1) 専門家が異なる種類のトークンを処理することを促す直交性損失、(2) より識別的なルーティング決定を促す分散損失です。勾配レベルの分析により、これらの目的関数は既存の補助損失と互換性があり、トレーニングプロセスの最適化に寄与することが示されています。様々なモデルアーキテクチャと複数のベンチマークにわたる実験結果から、本手法が専門性の向上に大きく寄与することが示されました。特に、本手法は、補助損失を用いた従来のMoEベースラインを最大23.79%向上させるとともに、アーキテクチャの変更や追加コンポーネントなしで、下流タスクにおける負荷バランスを維持します。コミュニティへの貢献として、コードを公開する予定です。

原文(英語)を表示

Title (EN): Advancing Expert Specialization for Better MoE

arXiv:2505.22323v2 Announce Type: replace
Abstract: Mixture-of-Experts (MoE) models enable efficient scaling of large language models (LLMs) by activating only a subset of experts per input. However, we observe that the commonly used auxiliary load balancing loss often leads to expert overlap and overly uniform routing, which hinders expert specialization and degrades overall performance during post-training. To address this, we propose a simple yet effective solution that introduces two complementary objectives: (1) an orthogonality loss to encourage experts to process distinct types of tokens, and (2) a variance loss to encourage more discriminative routing decisions. Gradient-level analysis demonstrates that these objectives are compatible with the existing auxiliary loss and contribute to optimizing the training process. Experimental results over various model architectures and across multiple benchmarks show that our method significantly enhances expert specialization. Notably, our method improves classic MoE baselines with auxiliary loss by up to 23.79%, while also maintaining load balancing in downstream tasks, without any architectural modifications or additional components. We will release our code to contribute to the community.

Published: 2025-09-24 19:00 UTC


コメントする