正しいものをスケーリングしているか?テスト時スケーリングに関するシステム視点
なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。
arXiv:2509.19645v1発表タイプ:クロス
概要:テスト時スケーリング(TTS)は、事前学習済み大規模言語モデル(LLM)の潜在的な推論能力を活用するための有望な方向性として最近注目を集めています。しかし、既存のスケーリング手法は計算最適なパレートフロンティアに狭く焦点を当てており、計算最適が常にシステム最適であるとは限らないという単純な事実を無視しています。本研究では、レイテンシやトークンあたりのコストなどの実際的な指標に対する推論モデルのスケーリング方法を分析することで、TTSに対するシステム主導の視点提案します。テンソル並列処理や推測的デコーディングなどの一般的な最適化の影響を評価することにより、我々の予備分析は現状手法の限界を明らかにし、推論時のスケーリング則の本質を捉える包括的なシステム認識評価へのパラダイムシフトを促しています。
原文(英語)を表示
Title (EN): Are We Scaling the Right Thing? A System Perspective on Test-Time Scaling
arXiv:2509.19645v1 Announce Type: cross
Abstract: Test-time scaling (TTS) has recently emerged as a promising direction to exploit the hidden reasoning capabilities of pre-trained large language models (LLMs). However, existing scaling methods narrowly focus on the compute-optimal Pareto-frontier, ignoring the simple fact that compute-optimal is not always system-optimal. In this work, we propose a system-driven perspective on TTS, analyzing how reasoning models scale against practical metrics, such as latency and cost-per-token. By evaluating the impact of popular optimizations such as tensor parallelism and speculative decoding, our preliminary analysis reveals the limitations of current methods and calls for a paradigm shift toward holistic, system-aware evaluations that capture the true essence of scaling laws at inference time.
Published: 2025-09-24 19:00 UTC