パイプライン並列処理は、最適化された早期終了型自己推測デコーディングに必要な全てである
なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。
arXiv:2509.19368v1発表形式:クロス
概要:大規模言語モデル(LLM)は優れた生成品質を提供する一方、各出力トークンが全モデル層を通して自己回帰的に生成されるため、非常に高い推論コストを伴う。早期終了ベースの自己推測デコーディング(EESD)はこのコストを軽減するために登場した。しかし実際には、整合性の取れた早期終了ヘッドと選択された終了位置を用いても、多くの手法がこのような下書きと検証のパラダイムにおいて期待される高速化を達成することに苦労している。我々の分析によると、EESDは下書きトークンの圧倒的多数がLLMによって承認された場合にのみ効果を発揮する。そうでない場合、下書きコストが高速化の利得を上回り、速度低下につながる可能性がある。これを軽減するために、下書きと検証の作業を完全にパイプライン化し、失敗した予測に労力を無駄にしないPipeline-Parallel Self-Speculative Decoding(PPSD)を提案する。これは2つの主要な革新を持つ。我々は、早期終了(下書き)計算と残りの層(検証)計算がオーバーラップするパイプラインとしてモデル層を構成する。トークンごとに下書きと検証をインターリーブする。LLMが最終層で現在のトークンを検証している間に、早期終了パスは同時に次のトークンを下書きする。このような検証しながら下書きするスキームは、すべてのユニットを稼働させ、推測と検証の段階をパイプライン処理することに類似して、トークンをオンザフライで検証する。実験結果は、PPSDが自己推測LLM推論において最先端の高速化を達成することを確認している。様々なベンチマークにおいて、PPSDは2.01倍~3.81倍の速度向上率を達成し、固定された承認率と終了位置においてほぼ最適な高速化を実現しており、効率的な自己推測を提供する上での進歩を示している。
原文(英語)を表示
Title (EN): Pipeline Parallelism is All You Need for Optimized Early-Exit Based Self-Speculative Decoding
arXiv:2509.19368v1 Announce Type: cross
Abstract: Large language models (LLMs) deliver impressive generation quality, but incur very high inference cost because each output token is generated auto-regressively through all model layers. Early-exit based self-speculative decoding (EESD) has emerged to mitigate this cost. However, in practice, many approaches struggle to achieve the expected acceleration in such draft-then-verify paradigm even with a well-aligned early-exit head and selected exit position. Our analysis reveals that EESD only pays off when the vast majority of draft tokens are accepted by the LLM. Otherwise, the draft cost may overcome the acceleration gain and lead to a negative speedup. To mitigate this, we propose Pipeline-Parallel Self-Speculative Decoding (PPSD) that fully pipelines the draft and verification work so that no effort is wasted on failed predictions. It has two key innovations. We configure the model layers as a pipeline in which early-exit (draft) computations and remaining-layer (verification) computations overlap. We interleave drafting and verification per token. While the LLM is verifying the current token in its final layers, the early-exit path simultaneously drafts the next token. Such a verify-while-draft scheme keeps all units busy and validates tokens on-the-fly analogous to pipelining the speculation and verification stages. Empirical results confirm that PPSD achieves state-of-the-art acceleration in self-speculative LLM inference. On diverse benchmarks, PPSD achieves speedup ratios in the range of 2.01x~3.81x, which gains almost the optimal acceleration at the fixed acceptance rate and exit position, showcasing its advancement in providing efficient self-speculation.
Published: 2025-09-24 19:00 UTC