DuoGPT:大規模言語モデルにおける活性化認識型プルーニングによる訓練不要な二重スパース化

DuoGPT:大規模言語モデルにおける活性化認識型プルーニングによる訓練不要な二重スパース化

なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。

ソースを読む(export.arxiv.org)

arXiv:2506.20194v2 発表種別:差し替え

概要:大規模言語モデル(LLM)は高い性能を示すものの、高いメモリと計算コストが原因で展開が困難です。剪定はこれらの要求を削減しますが、ほとんどの方法では実行時に観察される活性化スパース性を無視しています。本研究では、活性化スパース性を動的な構造化された重みスパース性として再解釈し、非構造化重み剪定と活性化スパース性を組み合わせることで、デュアルスパース(spMspV)ワークロードを構築する統合フレームワークDuoGPTを提案します。精度を維持するために、活性化を考慮したキャリブレーションを用いてOptimal Brain Compression(OBC)フレームワークを拡張し、高密度モデルからの出力残差を補正項として導入します。さらに、効率的なGPU実行のための最適化を行い、数十億パラメータのLLMへのスケーラビリティを実現します。LLaMA-2とLLaMA-3での評価によると、DuoGPTは、ベースラインの高密度モデルと比較して1.39倍の等速化において、最先端の構造化剪定手法を最大9.17%精度で上回ります。コードはGithubで公開しています。

原文(英語)を表示

Title (EN): DuoGPT: Training-free Dual Sparsity through Activation-aware Pruning in LLMs

arXiv:2506.20194v2 Announce Type: replace
Abstract: Large language models (LLMs) deliver strong performance but are difficult to deploy due to high memory and compute costs. While pruning reduces these demands, most methods ignore activation sparsity observed at runtime. We reinterpret activation sparsity as dynamic structured weight sparsity and propose DuoGPT, a unified framework that constructs dual-sparse (spMspV) workloads by combining unstructured weight pruning with activation sparsity. To preserve accuracy, we extend the Optimal Brain Compression (OBC) framework with activation-aware calibration and introduce output residuals from the dense model as correction terms. We further optimize the solution for efficient GPU execution, enabling scalability to billion-parameter LLMs. Evaluations on LLaMA-2 and LLaMA-3 show that DuoGPT outperforms state-of-the-art structured pruning methods by up to 9.17% accuracy at an iso-speedup of 1.39$\times$ compared to the baseline dense model. Code is available at Github.

Published: 2025-09-24 19:00 UTC


コメントする