GRAFT:テキスト整列のためのグラフとテーブル推論—構造化された指示に従うことと視覚的推論のためのベンチマーク

GRAFT:テキスト整列のためのグラフとテーブル推論—構造化された指示に従うことと視覚的推論のためのベンチマーク

なぜ重要か: パフォーマンス指標が更新され、選定・置換の判断材料になります。

ソースを読む(export.arxiv.org)

arXiv:2508.15690v2 発表種別:差し替え

概要:GRAFTは、指示に従う能力、視覚的推論、視覚テキスト整合タスクにおけるモデルを評価するための構造化されたマルチモーダルベンチマークです。Pythonの可視化ライブラリを用いてプログラムによって生成されたチャートと合成的にレンダリングされた表を特徴とし、データのセマンティクス、構造、明確性を制御します。各GRAFTインスタンスは、チャートまたはテーブルの画像と、視覚的コンテンツのみに基づいて体系的に生成された、複数ステップの分析的質問をペアにします。解答はJSONやYAMLなどの構造化形式で提供され、推論と出力形式の両方を一貫して評価できます。このベンチマークは、比較、トレンド特定、ランキング、集計、割合推定、異常検出などの推論タイプの分類を導入し、包括的な評価を可能にします。参照解答は、正確で側面に基づいた評価のために、厳格な事実とフォーマットのガイドラインに従います。GRAFTは、視覚的に根拠のある構造化された推論タスクにおけるマルチモーダルモデルのきめ細かいベンチマークのための統一されたスケーラブルなフレームワークを提供し、この分野における新しい評価基準を設定します。

原文(英語)を表示

Title (EN): GRAFT: GRaPH and Table Reasoning for Textual Alignment — A Benchmark for Structured Instruction Following and Visual Reasoning

arXiv:2508.15690v2 Announce Type: replace
Abstract: GRAFT is a structured multimodal benchmark for evaluating models on instruction-following, visual reasoning, and visual-textual alignment tasks. It features programmatically generated charts and synthetically rendered tables, created with Python visualization libraries to ensure control over data semantics, structure, and clarity. Each GRAFT instance pairs a chart or table image with a systematically generated, multi-step analytical question based solely on visual content. Answers are provided in structured formats such as JSON or YAML, supporting consistent evaluation of both reasoning and output format. The benchmark introduces a taxonomy of reasoning types including comparison, trend identification, ranking, aggregation, proportion estimation, and anomaly detection to enable comprehensive assessment. Reference answers follow strict factual and formatting guidelines for precise, aspect-based evaluation. GRAFT offers a unified, scalable framework for fine-grained benchmarking of multimodal models on visually grounded, structured reasoning tasks, setting a new evaluation standard in this field.

Published: 2025-09-24 19:00 UTC


コメントする