Web API統合コード生成のベンチマーク
なぜ重要か: パフォーマンス指標が更新され、選定・置換の判断材料になります。
arXiv:2509.20172v1発表タイプ:クロス
要約:API統合はデジタルインフラストラクチャの基盤であり、ソフトウェアシステム間の接続と相互作用を可能にします。しかしながら、多くの研究で示されているように、特にWeb APIを呼び出すための正しいコードの作成または生成は困難です。大規模言語モデル(LLM)はソフトウェア開発において普及しつつありますが、Web API統合コード生成における自動化効果は未解明です。これに対処するため、LLMがWeb API呼び出しコードを生成する能力を評価するためのデータセットと評価パイプラインを提示します。いくつかのオープンソースLLMを用いた実験により、API呼び出しの生成は大きな課題であり、幻覚エンドポイント、不正な引数使用、その他のエラーを引き起こすことが明らかになりました。評価されたオープンソースモデルはいずれも、課題の40%以上を解決することができませんでした。
原文(英語)を表示
Title (EN): Benchmarking Web API Integration Code Generation
arXiv:2509.20172v1 Announce Type: cross
Abstract: API integration is a cornerstone of our digital infrastructure, enabling software systems to connect and interact. However, as shown by many studies, writing or generating correct code to invoke APIs, particularly web APIs, is challenging. Although large language models~(LLMs) have become popular in software development, their effectiveness in automating the generation of web API integration code remains unexplored. In order to address this, we present a dataset and evaluation pipeline designed to assess the ability of LLMs to generate web API invocation code. Our experiments with several open-source LLMs reveal that generating API invocations poses a significant challenge, resulting in hallucinated endpoints, incorrect argument usage, and other errors. None of the evaluated open-source models were able to solve more than 40% of the tasks.
Published: 2025-09-24 19:00 UTC