Q-Palette:効率的なLLM展開に向けた最適ビット割り当てのための分数ビット量子化器

Q-Palette:効率的なLLM展開に向けた最適ビット割り当てのための分数ビット量子化器

なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。

ソースを読む(export.arxiv.org)

arXiv:2509.20214v1発表形式:クロス

概要:本研究では、少量または無償の較正データを用いて、大規模言語モデル(LLM)の重みを再訓練することなく量子化する、重みのみの後訓練量子化(PTQ)について考察する。重みのみのPTQは、特にエッジデバイス上でのパーソナライズされた推論など、メモリ制約のある小バッチ推論シナリオにおいて、LLM推論のメモリフットプリントとレイテンシを削減するために極めて重要である。その重要性にもかかわらず、LLMにおける重みの分布は不規則で、裾の重い外れ値が多く、量子化を複雑化している。そのため、最近では、重みをほぼガウス分布に変換する回転ベースの方法が提案され、より規則的で外れ値の少ない分布にすることで、量子化誤差を低減している。本研究ではまず、与えられたビット予算の下でのガウス化された重みに対する情報理論的に最適なビット割り当てを導出し、ガウス歪みレート限界に近づく微細な分数ビット量子化器が、ほぼ最適な量子化性能を達成するために不可欠であることを明らかにする。この理論的知見と実際的な実装との橋渡しとして、ほぼ最適な歪みを達成するトレリス符号化量子化器から、より高速な推論のために最適化された単純なベクトルおよびスカラー量子化器まで、様々な分数ビット量子化器を網羅した汎用的なコレクションであるQ-Paletteを導入する。これらは、様々なビット幅にわたって最適化されたCUDAカーネルを用いて効率的に実装されている。さらに、Q-Paletteを基礎コンポーネントとして活用し、リソース制約を考慮した量子化器の選択とレイヤ融合の決定を共同で最適化する、新しい混合方式量子化フレームワークを提案する。コードはhttps://github.com/snu-mllab/Q-Paletteで公開している。

原文(英語)を表示

Title (EN): Q-Palette: Fractional-Bit Quantizers Toward Optimal Bit Allocation for Efficient LLM Deployment

arXiv:2509.20214v1 Announce Type: cross
Abstract: We study weight-only post-training quantization (PTQ), which quantizes the weights of a large language model (LLM) without retraining, using little or no calibration data. Weight-only PTQ is crucial for reducing the memory footprint and latency of LLM inference, especially in memory-bound, small-batch inference scenarios, such as personalized inference on edge devices. Despite its importance, irregular weight distributions with heavy-tailed outliers in LLMs complicate quantization, recently motivating rotation-based methods that transform weights into near-Gaussian distributions, which are more regular with fewer outliers, thereby reducing quantization error. In this work, we first derive the information-theoretically optimal bit allocation for Gaussianized weights under given bit budgets, revealing that fine-grained fractional-bit quantizers approaching the Gaussian distortion-rate bound are essential to achieve near-optimal quantization performance. To bridge this theoretical insight and practical implementation, we introduce Q-Palette, a versatile collection of fractional-bit quantizers that range from trellis-coded quantizers offering near-optimal distortion to simpler vector and scalar quantizers optimized for faster inference, all efficiently implemented with optimized CUDA kernels across various bitwidths. Furthermore, leveraging Q-Palette as a foundational component, we propose a novel mixed-scheme quantization framework, jointly optimizing quantizer choices and layer fusion decisions given resource constraints. The code is available at https://github.com/snu-mllab/Q-Palette.

Published: 2025-09-24 19:00 UTC


コメントする