SCORE:生成文書解析のための意味評価フレームワーク
なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。
arXiv:2509.19345v1発表タイプ:クロス
概要:マルチモーダル生成文書解析システムは従来の評価に課題を突きつける。決定論的なOCRやレイアウトモデルとは異なり、意味的には正しくとも構造的に異なる出力を生成することが多い。従来の指標(CER、WER、IoU、TEDSなど)はこうした多様性を誤りと分類し、妥当な解釈を罰し、システムの挙動を曖昧にする。
本稿では、解釈に依存しないフレームワークSCORE(Structural and COntent Robust Evaluation)を提案する。SCOREは、(i) 堅牢なコンテンツ忠実度のための調整済み編集距離、(ii) 幻覚と省略の区別のためのトークンレベルの診断、(iii) 空間許容度と意味的整合性を備えた表評価、(iv) 階層を意識した整合性チェックを統合する。これらの要素により、表現の多様性を許容しつつ、意味的な厳格性を維持する評価が可能になる。
包括的なベンチマークと現場データセットにまたがる1,114ページにおいて、SCOREは標準的な指標では見逃されていたクロスデータセットのパフォーマンスパターンを常に明らかにした。曖昧な表構造を持つページの2~5%において、従来の指標はシステムを平均12~25%ペナルティし、ランキングを歪めていた。SCOREはこれらのケースを修正し、代替的なが妥当な解釈間の等価性を回復した。さらに、生成出力のフォーマットに依存しない表現への正規化により、SCOREはオブジェクト検出パイプラインを必要とせずに従来のスコア(例えば、表F1で最大0.93)を再現し、生成解析のみで包括的な評価が可能であることを示した。
解釈的多様性が評価結果に与える影響を明らかにし、多次元で解釈可能な診断を提供することにより、SCOREは、現代の文書解析システムの、意味的に根拠があり、公平で、実践的なベンチマークのための基礎原理を確立する。
原文(英語)を表示
Title (EN): SCORE: A Semantic Evaluation Framework for Generative Document Parsing
arXiv:2509.19345v1 Announce Type: cross
Abstract: Multi-modal generative document parsing systems challenge traditional evaluation: unlike deterministic OCR or layout models, they often produce semantically correct yet structurally divergent outputs. Conventional metrics-CER, WER, IoU, or TEDS-misclassify such diversity as error, penalizing valid interpretations and obscuring system behavior.
We introduce SCORE (Structural and COntent Robust Evaluation), an interpretation-agnostic framework that integrates (i) adjusted edit distance for robust content fidelity, (ii) token-level diagnostics to distinguish hallucinations from omissions, (iii) table evaluation with spatial tolerance and semantic alignment, and (iv) hierarchy-aware consistency checks. Together, these dimensions enable evaluation that embraces representational diversity while enforcing semantic rigor.
Across 1,114 pages spanning a holistic benchmark and a field dataset, SCORE consistently revealed cross-dataset performance patterns missed by standard metrics. In 2-5% of pages with ambiguous table structures, traditional metrics penalized systems by 12-25% on average, leading to distorted rankings. SCORE corrected these cases, recovering equivalence between alternative but valid interpretations. Moreover, by normalizing generative outputs into a format-agnostic representation, SCORE reproduces traditional scores (e.g., table F1 up to 0.93) without requiring object-detection pipelines, demonstrating that generative parsing alone suffices for comprehensive evaluation.
By exposing how interpretive diversity impacts evaluation outcomes and providing multi-dimensional, interpretable diagnostics, SCORE establishes foundational principles for semantically grounded, fair, and practical benchmarking of modern document parsing systems.
Published: 2025-09-24 19:00 UTC