PEPS:量子着想型強化学習によるLLMにおけるコヒーレントな推論トレース
なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。
arXiv:2509.20105v1発表。論文タイプ:新規。
要約:大規模言語モデル(LLM)は、特に構造化された論理的流れを必要とするタスクにおいて、首尾一貫した複数ステップの推論過程の維持に苦労することが多い。本研究は、Projected Entangled Pair States(PEPS)から導出された忠実度に基づく報酬をProximal Policy Optimizationに組み込むことで、この課題に対処するための量子に着想を得たアプローチを紹介する。直接的な監督やコントラスト目標を用いる以前のアプローチとは異なり、提案手法は構造的一貫性を通じて学習を導き、生成された推論過程におけるグローバルな首尾一貫性を強化するための新規なアプローチを提供する。提案されたフレームワークは、算術、直感的、および含意に基づく推論にわたるGSM8K、StrategyQA、およびEntailmentBankなどの多様なデータセット上で、複数の首尾一貫性判定指標を用いて評価された。結果は、提案された量子に着想を得たアプローチが、教師あり、コントラスト、および事前学習済みベースラインアプローチに対して大幅な改善を示しており、量子に着想を得た忠実度がLLMにおける推論過程の首尾一貫性を向上させるための基礎として有効であることを強調している。
原文(英語)を表示
Title (EN): PEPS: Quantum-Inspired Reinforcement Learning for Coherent Reasoning Traces in LLMs
arXiv:2509.20105v1 Announce Type: new
Abstract: Large Language Models (LLMs) often struggle with maintaining coherent multi-step reasoning traces, particularly in tasks that require a structured logical flow. This work introduces a quantum-inspired approach to address the challenge by incorporating a fidelity-based reward derived from Projected Entangled Pair States (PEPS) into Proximal Policy Optimization. Unlike prior approaches that use direct supervision or contrastive objectives, the proposed method guides learning through structural consistency, offering a novel approach to enforce global coherence in generated reasoning traces. The proposed framework is evaluated using multiple coherence-determining metrics on diverse datasets such as GSM8K, StrategyQA, and EntailmentBank spanning arithmetic, intuitive, and entailment-based reasoning. Results show that the proposed quantum-inspired approach offers significant improvements over supervised, contrastive, and pretrained baseline approaches, highlighting the effectiveness of quantum-inspired fidelity as a foundation to improve reasoning trace coherence in LLMs.
Published: 2025-09-24 19:00 UTC