医療分野における効率的なマルチモーダルLLMのための圧縮戦略
なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。
arXiv:2507.21976v3 発表種別:差し替え
要旨: 多様な大規模言語モデル(MLLMs)は医療分野での利用に大きな可能性を秘めていますが、その計算コストは効率的な圧縮技術を必要とします。本論文は、医療用途向けに微調整されたLLAVAモデルに対する構造的プルーニングと活性化意識量子化の影響を評価します。プルーニングのための新規な層選択手法を提案し、異なる量子化手法を分析し、prune-SFT-quantizeパイプラインにおける性能トレードオフを評価します。提案手法により、70億パラメータのMLLMを4GBのVRAM内で実行可能となり、メモリ使用量を70%削減しつつ、同じ圧縮率において従来のプルーニングおよび量子化手法と比較して4%高いモデル性能を達成します。
原文(英語)を表示
Title (EN): Compression Strategies for Efficient Multimodal LLMs in Medical Contexts
arXiv:2507.21976v3 Announce Type: replace
Abstract: Multimodal Large Language Models (MLLMs) hold huge potential for usage in the medical domain, but their computational costs necessitate efficient compression techniques. This paper evaluates the impact of structural pruning and activation-aware quantization on a fine-tuned LLAVA model for medical applications. We propose a novel layer selection method for pruning, analyze different quantization techniques, and assess the performance trade-offs in a prune-SFT-quantize pipeline. Our proposed method enables MLLMs with 7B parameters to run within 4 GB of VRAM, reducing memory usage by 70% while achieving 4% higher model performance compared to traditional pruning and quantization techniques in the same compression ratio.
Published: 2025-09-24 19:00 UTC