SIM-CoT:教師あり暗黙的思考連鎖
なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。
arXiv:2509.20317v1発表形式:クロス
概要:暗黙的思考連鎖(CoT)手法は、大規模言語モデル(LLM)における明示的CoT推論に比べて有望なトークン効率の良い代替策であるが、性能差が依然として存在し、暗黙的CoTの応用を制限している。本研究では、暗黙的CoTアプローチの計算予算を拡大することで、中心的な潜在的な不安定性問題を特定した。性能向上のため暗黙的推論トークンの数を増やすと、訓練プロセスが不安定になり、崩壊することが多い。分析の結果、この不安定性は、既存の暗黙的CoTアプローチにおけるステップレベルの監督が不十分であることに起因する、潜在表現が均質化し、意味的な多様性を失うことによって生じることを明らかにした。この問題に対処するため、潜在的推論空間を安定化し、豊かにするステップレベルの監督を導入するプラグアンドプレイ型の訓練モジュールSIM-CoTを提案する。具体的には、SIM-CoTは訓練中に補助デコーダを用いて、各暗黙的トークンを対応する明示的推論ステップと整合させ、潜在状態が明確で意味のある情報を捉えるようにする。提案された補助デコーダは推論時には削除されるため、暗黙的CoT手法の計算効率は追加のオーバーヘッドなしに維持される。さらに、補助デコーダは、各潜在トークンを明示的推論語彙に投影することで暗黙的推論の解釈性を高め、ステップごとの意味役割の可視化と診断を可能にする。SIM-CoTは、様々な暗黙的CoT手法のドメイン内精度とドメイン外安定性を大幅に向上させ、GPT-2ではCoconutを+8.2%、LLaMA-3.1 8BではCODIを+3.0%向上させた。優れたスケーラビリティを実証しており、SIM-CoTはGPT-2において明示的CoTベースラインを2.1%上回り、2.3倍のトークン効率を実現すると同時に、LLaMA-3.1 8Bなどのより大規模なモデルにおける性能差を大幅に縮小した。
原文(英語)を表示
Title (EN): SIM-CoT: Supervised Implicit Chain-of-Thought
arXiv:2509.20317v1 Announce Type: cross
Abstract: Implicit Chain-of-Thought (CoT) methods present a promising, token-efficient alternative to explicit CoT reasoning in Large Language Models (LLMs), but a persistent performance gap has limited the application of implicit CoT. We identify a core latent instability issue by scaling the computational budget of implicit CoT approaches: as we increase the number of implicit reasoning tokens to enhance performance, the training process often becomes unstable and collapses. Our analysis reveals that this instability arises from the latent representations becoming homogeneous and losing their semantic diversity, a failure caused by insufficient step-level supervision in existing implicit CoT approaches. To address this issue, we propose SIM-CoT, a plug-and-play training module that introduces step-level supervision to stabilize and enrich the latent reasoning space. Specifically, SIM-CoT employs an auxiliary decoder during training to align each implicit token with its corresponding explicit reasoning step, ensuring that latent states capture distinct and meaningful information. The proposed auxiliary decoder is removed during inference, preserving the computational efficiency of implicit CoT methods with no added overhead. In addition, the auxiliary decoder affords interpretability of implicit reasoning by projecting each latent token onto an explicit reasoning vocabulary, enabling per-step visualization of semantic roles and diagnosis. SIM-CoT significantly enhances both the in-domain accuracy and out-of-domain stability of various implicit CoT methods, boosting baselines like Coconut by +8.2% on GPT-2 and CODI by +3.0% on LLaMA-3.1 8B. Demonstrating strong scalability, SIM-CoT also surpasses the explicit CoT baseline on GPT-2 by 2.1% with 2.3\times greater token efficiency, while substantially closing the performance gap on larger models like LLaMA-3.1 8B.
Published: 2025-09-24 19:00 UTC