STARQA:構造化データベース上の複雑な分析推論のための質問応答データセット
なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。
arXiv:2509.19508v1発表タイプ: クロス
概要:テキストをSQLクエリに変換する意味解析手法は、構造化データに対する質問応答を可能にし、特殊なリレーショナルデータベースに保存された膨大なデータに対して日常的に複雑な分析を行うアナリストに大きな恩恵をもたらす。いくつかのベンチマークがテキストからSQLへの変換能力を測定しているものの、それらの質問の複雑さはクエリ言語の表現力のレベルによって本質的に制限されており、集計分析、時系列分析、またはシナリオ理解などの演算を必要とする複雑な分析的推論を含む質問には明示的に焦点を当てていない。本論文では、3つの専門分野のデータベースに関する複雑な分析的推論の質問と回答からなる、初の公開された人為的に作成されたデータセットSTARQAを紹介する。LLMを用いたSQLの直接生成に加え、タスクをSQLとPythonの組み合わせに分解する新規手法(Text2SQLCode)を評価する。SQLはデータ取得を担当し、Pythonはより自然に推論を実行する。我々の結果は、SQL単独の使用と比較して、SQLとPythonの能力を特定し組み合わせることが有益であることを示しているが、それでも既存の最先端のLLMにとってデータセットは非常に困難なままである。
原文(英語)を表示
Title (EN): STARQA: A Question Answering Dataset for Complex Analytical Reasoning over Structured Databases
arXiv:2509.19508v1 Announce Type: cross
Abstract: Semantic parsing methods for converting text to SQL queries enable question answering over structured data and can greatly benefit analysts who routinely perform complex analytics on vast data stored in specialized relational databases. Although several benchmarks measure the abilities of text to SQL, the complexity of their questions is inherently limited by the level of expressiveness in query languages and none focus explicitly on questions involving complex analytical reasoning which require operations such as calculations over aggregate analytics, time series analysis or scenario understanding. In this paper, we introduce STARQA, the first public human-created dataset of complex analytical reasoning questions and answers on three specialized-domain databases. In addition to generating SQL directly using LLMs, we evaluate a novel approach (Text2SQLCode) that decomposes the task into a combination of SQL and Python: SQL is responsible for data fetching, and Python more naturally performs reasoning. Our results demonstrate that identifying and combining the abilities of SQL and Python is beneficial compared to using SQL alone, yet the dataset still remains quite challenging for the existing state-of-the-art LLMs.
Published: 2025-09-24 19:00 UTC