リスニング中の思考:音声分類のための簡素なテスト時間スケーリング
なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。
arXiv:2509.19676v1発表タイプ:クロス
要約:本稿では、日常の音声への「思考しながらの聴取」をニューラルモデルに可能にする枠組みを提案し、音声分類性能の向上を図る。大規模言語モデルの推論能力における最近の進歩に着想を得て、我々は2つの主要な課題に取り組む:(i)既存の音声分類パイプラインに思考を取り込み、カテゴリ空間における推論を可能にし、性能を向上させるにはどうすればよいか、(ii)思考とテスト時スケーリングの両方をサポートするアーキテクチャをゼロから設計できるか。両方の設定において、提案モデルは分類精度が向上することを示す。テスト時スケーリングを活用することで、サンプリングされたトレースの数が増加するにつれて、一貫した性能向上を観測する。さらに、GPT-OSS-20BとQwen3-14Bという2つのオープンソース推論モデルを評価し、これらのモデルはゼロショット推論が可能である一方で、GPT-2のような凍結された小型モデルの埋め込み行列のみを再学習するという軽量なアプローチが、数十億パラメータのテキストベース推論モデルの性能を上回ることを示す。
原文(英語)を表示
Title (EN): Thinking While Listening: Simple Test Time Scaling For Audio Classification
arXiv:2509.19676v1 Announce Type: cross
Abstract: We propose a framework that enables neural models to “think while listening” to everyday sounds, thereby enhancing audio classification performance. Motivated by recent advances in the reasoning capabilities of large language models, we address two central questions: (i) how can thinking be incorporated into existing audio classification pipelines to enable reasoning in the category space and improve performance, and (ii) can a new architecture be designed from the ground up to support both thinking and test-time scaling? We demonstrate that in both settings, our models exhibit improved classification accuracy. Leveraging test-time scaling, we observe consistent gains as the number of sampled traces increases. Furthermore, we evaluate two open-source reasoning models, GPT-OSS-20B and Qwen3-14B, showing that while such models are capable of zero-shot reasoning, a lightweight approach–retraining only the embedding matrix of a frozen, smaller model like GPT-2–can surpass the performance of billion-parameter text-based reasoning models.
Published: 2025-09-24 19:00 UTC