大規模言語モデルを用いたコードからのユーザーストーリーの逆エンジニアリング

大規模言語モデルを用いたコードからのユーザーストーリーの逆エンジニアリング

なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。

ソースを読む(export.arxiv.org)

arXiv:2509.19587v1発表種別:クロス

概要:ユーザーストーリーはアジャイル開発において不可欠であるが、レガシーシステムやドキュメントが不十分なシステムではしばしば欠落または古くなっている。本研究では、大規模言語モデル(LLM)がソースコードからユーザーストーリーを自動的に復元できるかどうか、そしてプロンプト設計が出力品質にどのように影響するかを調査する。複雑さの異なる1750個の注釈付きC++スニペットを用いて、6つのプロンプト戦略にわたり5つの最先端LLMを評価した。結果は、全てのモデルが平均して200 NLOCまでのコードで0.8のF1スコアを達成することを示している。また、単一の例示的な例を用いることで、最小のモデル(8B)がはるかに大きい70Bモデルと同等の性能を達成できることを示した。対照的に、思考連鎖による構造的推論は、主に大規模モデルにおいてわずかな改善しかもたらさない。

原文(英語)を表示

Title (EN): Reverse Engineering User Stories from Code using Large Language Models

arXiv:2509.19587v1 Announce Type: cross
Abstract: User stories are essential in agile development, yet often missing or outdated in legacy and poorly documented systems. We investigate whether large language models (LLMs) can automatically recover user stories directly from source code and how prompt design impacts output quality. Using 1,750 annotated C++ snippets of varying complexity, we evaluate five state-of-the-art LLMs across six prompting strategies. Results show that all models achieve, on average, an F1 score of 0.8 for code up to 200 NLOC. Our findings show that a single illustrative example enables the smallest model (8B) to match the performance of a much larger 70B model. In contrast, structured reasoning via Chain-of-Thought offers only marginal gains, primarily for larger models.

Published: 2025-09-24 19:00 UTC


コメントする