コードセマンティクスは有効か?コード大規模言語モデルにおける実行トレースベース情報の包括的研究

コードセマンティクスは有効か?コード大規模言語モデルにおける実行トレースベース情報の包括的研究

なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。

ソースを読む(export.arxiv.org)

arXiv:2509.11686v3 発表種別: replace-cross

要約:大規模言語モデル(Code LLMs)は、その驚異的な能力によりプログラミングに新たな時代を開きました。しかしながら、最近の研究では、実行時動作に関する推論能力とプログラムの実際的な機能の理解において、Code LLMsに重大な限界があることが明らかになり、トレーニング後の段階と実用的な展開に大きな課題をもたらしています。具体的には、Code LLMsは、(1) プログラムが実行時に実際に何をするかを解釈することに苦労するなど、プログラムの実行動作に関する推論能力の不足、(2) 実行トレースなどの意味情報の表現が既存の方法において不整合で断片的であるため、一般化と効果的な推論能力が阻害される、という2つの主要な問題に直面しています。これらの課題は、Code LLMsの推論能力を向上させるためのより体系的なアプローチの必要性を強調しています。これらの問題に対処するため、本研究では、意味情報(例:実行トレース)をコードタスク関連のプロンプトに統合するための汎用フレームワークを導入し、意味情報がCode LLMsの推論能力向上に果たす役割を包括的に調査する研究を実施しました。具体的には、教師ありファインチューニング(SFT)とCode LLMsのポストフェーズ推論における、トレースベースの意味情報の有用性について調査することに焦点を当てました。実験結果は、以前の研究とは驚くべきことに矛盾し、意味情報はSFTおよびCode LLMのテスト時スケーリングに対して限定的な有用性しか持たないことを示しました。

原文(英語)を表示

Title (EN): Do Code Semantics Help? A Comprehensive Study on Execution Trace-Based Information for Code Large Language Models

arXiv:2509.11686v3 Announce Type: replace-cross
Abstract: Code Large Language Models (Code LLMs) have opened a new era in programming with their impressive capabilities. However, recent research has revealed critical limitations in their ability to reason about runtime behavior and understand the actual functionality of programs, which poses significant challenges for their post-training and practical deployment. Specifically, Code LLMs encounter two principal issues: (1) a lack of proficiency in reasoning about program execution behavior, as they struggle to interpret what programs actually do during runtime, and (2) the inconsistent and fragmented representation of semantic information, such as execution traces, across existing methods, which hinders their ability to generalize and reason effectively. These challenges underscore the necessity for more systematic approaches to enhance the reasoning capabilities of Code LLMs. To address these issues, we introduce a generic framework to support integrating semantic information~(e.g., execution trace) to code task-relevant prompts, and conduct a comprehensive study to explore the role of semantic information in enhancing the reasoning ability of Code LLMs accordingly. Specifically, we focus on investigating the usefulness of trace-based semantic information in boosting supervised fine-tuning~(SFT) and post-phase inference of Code LLMs. The experimental results surprisingly disagree with previous works and demonstrate that semantic information has limited usefulness for SFT and test time scaling of Code LLM.

Published: 2025-09-24 19:00 UTC


コメントする