高速・小型・高性能:オンラインMoE推論のためのタスク認識型専門家融合

高速・小型・高性能:オンラインMoE推論のためのタスク認識型専門家融合

なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。

ソースを読む(export.arxiv.org)

arXiv:2509.19781v1発表。論文タイプ:新規。

概要:スパース混合専門家(SMoE)は、計算コストを増やすことなくTransformerの能力を拡張するための好ましいアーキテクチャとなっています。これは、各入力に対して専門家の小さなサブセットのみを活性化するためです。しかし、大規模なSMoEモデル全体と専門家ルーティングの複雑さ、特にリソース制約のあるエッジネットワークにおいて、このようなアプローチをオンライン推論に展開することは依然として困難です。さらに、オンライン推論中は、タスク情報が利用できないことが多く、タスクレベルのルーティングがエラーを起こしやすくなります。本研究では、効率的で信頼性の高いオンラインMoE推論を可能にする、新しいツリー構造を持つ適応ニューラルバンディットルーター、Tanbrを提案します。Tanbrは明示的なタスクタグに頼る代わりに、履歴データから時間の経過とともにタスク分布を推定し、それを用いて、与えられた事前学習済みMoE内でのタスク認識専門家マージをガイドします。マージ重みの大きな連続空間を処理するために、Tanbrはバイナリツリーを用いて空間を段階的に分割し、より細かい候補重みを生成します。次に、ニューラルバンディットを適用して、マージ重みからモデル性能への非線形マッピングを学習し、最適な専門家マージを決定します。連続的な決定空間で動作しているにもかかわらず、TanbrはTラウンドにわたって$\mathcal{O}(\sqrt{T} \log(T))$のサブ線形後悔上限を達成することを証明し、既存の方法と比較して後悔上限が一致することを示します。広範な実験により、Tanbrは多くの最先端の方法と比較して高い精度を維持しながら、推論レイテンシを少なくとも45%、メモリ使用量を最大25%削減することを示しています。

原文(英語)を表示

Title (EN): Faster, Smaller, and Smarter: Task-Aware Expert Merging for Online MoE Inference

arXiv:2509.19781v1 Announce Type: new
Abstract: Sparse Mixture of Experts (SMoE) has become a preferred architecture for scaling Transformer capacity without increasing computational cost, as it activates only a small subset of experts for each input. However, deploying such an approach for \textit{online inference} remains challenging due to the large size of a full SMoE model and the complexity of expert routing, especially in resource-constrained edge networks. Moreover, during the online inference, task information is often unavailable, making the task-level routing error-prone. In this work, we propose a novel tree-structured adaptive neural bandit router, \texttt{Tanbr}, to enable efficient and reliable online MoE inference. Instead of relying on explicit task tags, \texttt{Tanbr} estimates the task distribution over time from historical data and uses it to guide task-aware expert merging within a given pre-trained MoE. To handle the large continuous space of merging weights, \texttt{Tanbr} employs a binary tree to progressively partition the space and generate finer candidate weights. It then applies a neural bandit to learn the non-linear mapping from merging weight to model performance and decides optimal expert merging. We prove that \texttt{Tanbr} achieves a sublinear regret bound of {\small $\mathcal{O}(\sqrt{T} \log(T))$} over {\small $T$} rounds, despite operating over a continuous decision space, matching regret bounds compared to existing methods. Extensive experiments show that \texttt{Tanbr} reduces inference latency by at least {\small $45\%$} and memory usage by up to {\small $25\%$}, while maintaining a high accuracy compared to many state-of-the-art methods.

Published: 2025-09-24 19:00 UTC


コメントする