高速・小型・高性能:オンラインMoE推論のためのタスク認識型エキスパートマージング

高速・小型・高性能:オンラインMoE推論のためのタスク認識型エキスパートマージング

なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。

ソースを読む(export.arxiv.org)

arXiv:2509.19781v1発表、新規。

概要:スパース混合オブエキスパート(SMoE)は、計算コストを増やすことなくTransformerの能力を拡張するための好ましいアーキテクチャとなっています。これは、各入力に対して少数のエキスパートのみを活性化するためです。しかし、このようなアプローチをオンライン推論に適用することは、完全なSMoEモデルのサイズが大きく、特にリソース制約のあるエッジネットワークにおいてエキスパートルーティングが複雑であるため、依然として困難です。さらに、オンライン推論中は、タスク情報が利用できないことが多く、タスクレベルのルーティングがエラーを起こしやすくなります。本研究では、効率的で信頼性の高いオンラインMoE推論を可能にする、新しいツリー構造の適応型ニューラルバンディットルーター、Tanbrを提案します。Tanbrは、明示的なタスクタグに依存する代わりに、履歴データから時間の経過とともにタスク分布を推定し、それを用いて、与えられた事前学習済みMoE内のタスク認識エキスパートマージをガイドします。マージウェイトの大きな連続空間を処理するために、Tanbrはバイナリツリーを用いて空間を段階的に分割し、より細かい候補ウェイトを生成します。その後、ニューラルバンディットを適用して、マージウェイトからモデル性能への非線形マッピングを学習し、最適なエキスパートマージを決定します。連続的な決定空間で動作するにもかかわらず、Tanbrは$\mathcal{O}(\sqrt{T} \log(T))$のサブ線形リグレットバウンドを$T$ラウンドで達成することを証明し、既存の方法と比較してリグレットバウンドを一致させます。広範な実験により、Tanbrは推論レイテンシを少なくとも45%削減し、メモリ使用量を最大25%削減しながら、多くの最先端の方法と比較して高い精度を維持することを示しています。

原文(英語)を表示

Title (EN): Faster, Smaller, and Smarter: Task-Aware Expert Merging for Online MoE Inference

arXiv:2509.19781v1 Announce Type: new
Abstract: Sparse Mixture of Experts (SMoE) has become a preferred architecture for scaling Transformer capacity without increasing computational cost, as it activates only a small subset of experts for each input. However, deploying such an approach for \textit{online inference} remains challenging due to the large size of a full SMoE model and the complexity of expert routing, especially in resource-constrained edge networks. Moreover, during the online inference, task information is often unavailable, making the task-level routing error-prone. In this work, we propose a novel tree-structured adaptive neural bandit router, \texttt{Tanbr}, to enable efficient and reliable online MoE inference. Instead of relying on explicit task tags, \texttt{Tanbr} estimates the task distribution over time from historical data and uses it to guide task-aware expert merging within a given pre-trained MoE. To handle the large continuous space of merging weights, \texttt{Tanbr} employs a binary tree to progressively partition the space and generate finer candidate weights. It then applies a neural bandit to learn the non-linear mapping from merging weight to model performance and decides optimal expert merging. We prove that \texttt{Tanbr} achieves a sublinear regret bound of {\small $\mathcal{O}(\sqrt{T} \log(T))$} over {\small $T$} rounds, despite operating over a continuous decision space, matching regret bounds compared to existing methods. Extensive experiments show that \texttt{Tanbr} reduces inference latency by at least {\small $45\%$} and memory usage by up to {\small $25\%$}, while maintaining a high accuracy compared to many state-of-the-art methods.

Published: 2025-09-24 19:00 UTC


コメントする