AI推論におけるエネルギー消費:効率化への道筋とテスト時計算

AI推論におけるエネルギー消費:効率化への道筋とテスト時計算

なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。

ソースを読む(export.arxiv.org)

arXiv:2509.20241v1発表タイプ:新規

要約:AI推論が数十億件のクエリに拡大し、新たな推論ワークフローとエージェント型ワークフローによりトークン需要が増加する中、クエリごとのエネルギー使用量の信頼できる推定は、キャパシティプランニング、排出量算定、効率優先順位付けにおいてますます重要になっています。多くの公開されている推定値は矛盾しており、エネルギー使用量を過大評価しています。これは、限られたベンチマークからの外挿に基づいており、規模による効率性の向上を反映していないためです。本稿では、トークンスループットに基づいて大規模LLMシステムのクエリごとのエネルギーを推定するためのボトムアップ手法を紹介します。現実的なワークロード、GPU利用率、PUE制約下でH100ノード上で動作するモデルの場合、最先端規模のモデル(>2000億パラメータ)のクエリあたりの中央値エネルギーは0.34 Wh(IQR:0.18~0.67)と推定されます。これらの結果は、本番規模の構成を使用した測定結果と一致しており、非本番環境での推定と仮定によってエネルギー使用量が4~20倍過大評価される可能性があることを示しています。典型的なクエリあたりのトークン数が15倍増加するテスト時のスケーリングシナリオに拡張すると、中央値エネルギーは13倍増加して4.32 Whとなり、この体制における効率性の向上をターゲットとすることで、艦隊全体での節約効果が最大になることを示しています。モデル、サービスプラットフォーム、ハードウェアレベルで達成可能な効率性向上を定量化し、クエリあたりのエネルギーで中央値1.5~3.5倍の削減が見込まれ、複合的な進歩により8~20倍の削減が実現可能であることが分かりました。システムレベルへの影響を示すために、10億件のクエリを提供するデプロイメントのベースラインの1日あたりのエネルギー使用量を0.8 GWh/日と推定します。クエリの10%がロングクエリの場合、需要は1.8 GWh/日に増加する可能性があります。ターゲットを絞った効率性向上策により、0.9 GWh/日に減少します。これは、その規模でのウェブ検索のエネルギー消費量と同様です。これは、インターネットとクラウドの構築中にデータセンターが効率性向上を通じてエネルギー成長を抑制してきた歴史を反映しています。

原文(英語)を表示

Title (EN): Energy Use of AI Inference: Efficiency Pathways and Test-Time Compute

arXiv:2509.20241v1 Announce Type: new
Abstract: As AI inference scales to billions of queries and emerging reasoning and agentic workflows increase token demand, reliable estimates of per-query energy use are increasingly important for capacity planning, emissions accounting, and efficiency prioritization. Many public estimates are inconsistent and overstate energy use, because they extrapolate from limited benchmarks and fail to reflect efficiency gains achievable at scale. In this perspective, we introduce a bottom-up methodology to estimate the per-query energy of large-scale LLM systems based on token throughput. For models running on an H100 node under realistic workloads, GPU utilization and PUE constraints, we estimate a median energy per query of 0.34 Wh (IQR: 0.18-0.67) for frontier-scale models (>200 billion parameters). These results are consistent with measurements using production-scale configurations and show that non-production estimates and assumptions can overstate energy use by 4-20x. Extending to test-time scaling scenarios with 15x more tokens per typical query, the median energy rises 13x to 4.32 Wh, indicating that targeting efficiency in this regime will deliver the largest fleet-wide savings. We quantify achievable efficiency gains at the model, serving platform, and hardware levels, finding individual median reductions of 1.5-3.5x in energy per query, while combined advances can plausibly deliver 8-20x reductions. To illustrate the system-level impact, we estimate the baseline daily energy use of a deployment serving 1 billion queries to be 0.8 GWh/day. If 10% are long queries, demand could grow to 1.8 GWh/day. With targeted efficiency interventions, it falls to 0.9 GWh/day, similar to the energy footprint of web search at that scale. This echoes how data centers historically tempered energy growth through efficiency gains during the internet and cloud build-up.

Published: 2025-09-24 19:00 UTC


コメントする