適応的コンテキスト圧縮によるRAG効率の向上
なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。
arXiv:2507.22931v3 発表種別:replace-cross
要旨:Retrieval-augmented generation (RAG)は外部知識によって大規模言語モデル(LLM)を強化するが、検索されたコンテキストの長さのために、推論コストが大幅に増加する。コンテキスト圧縮はこの問題を軽減するが、既存の手法は固定圧縮率を適用するため、単純なクエリでは過剰圧縮され、複雑なクエリでは圧縮不足となる。本研究では、入力の複雑さに基づいて圧縮率を動的に調整するフレームワーク、Adaptive Context Compression for RAG (ACC-RAG)を提案する。これにより、精度を犠牲にすることなく、推論効率を最適化する。ACC-RAGは階層的圧縮器(多粒度埋め込み用)とコンテキスト選択器を組み合わせることで、人間がざっと読むような方法で、最小限の必要な情報を保持する。Wikipediaと5つのQAデータセットを用いた評価において、ACC-RAGは固定レート方式を上回り、標準的なRAGと比較して4倍以上の高速な推論を実現しつつ、精度を維持または向上させた。
原文(英語)を表示
Title (EN): Enhancing RAG Efficiency with Adaptive Context Compression
arXiv:2507.22931v3 Announce Type: replace-cross
Abstract: Retrieval-augmented generation (RAG) enhances large language models (LLMs) with external knowledge but incurs significant inference costs due to lengthy retrieved contexts. While context compression mitigates this issue, existing methods apply fixed compression rates, over-compressing simple queries or under-compressing complex ones. We propose Adaptive Context Compression for RAG (ACC-RAG), a framework that dynamically adjusts compression rates based on input complexity, optimizing inference efficiency without sacrificing accuracy. ACC-RAG combines a hierarchical compressor (for multi-granular embeddings) with a context selector to retain minimal sufficient information, akin to human skimming. Evaluated on Wikipedia and five QA datasets, ACC-RAG outperforms fixed-rate methods and matches/unlocks over 4 times faster inference versus standard RAG while maintaining or improving accuracy.
Published: 2025-09-24 19:00 UTC