CHURRO:高精度・低コストの史料テキスト認識を実現するオープンウェイト型大規模ビジョン・ランゲージモデルによる歴史資料の可読化
なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。
arXiv:2509.19768v1発表。種類:新規。
要約:歴史文書の高精度なテキスト認識は、文化遺産の研究と保存を大きく進歩させる。しかし、既存のビジョン・ランゲージ・モデル(VLM)は近代的な標準化されたテキスト用に設計されており、歴史資料に見られる多様な言語と文字、不規則なレイアウト、そして頻繁な劣化に対応できない。
本論文では、歴史的テキスト認識に特化した30億パラメータのオープンウェイトVLMであるCHURROを紹介する。本モデルは、現在までで最大規模の歴史的テキスト認識データセットであるCHURRO-DSを用いて訓練された。CHURRO-DSは、46の言語群(歴史的変種および死語を含む)にわたる22世紀に及ぶテキスト遺産からなる99,491ページ、155の歴史的コーパスを統合している。
CHURRO-DSを用いて、いくつかのオープンウェイトおよびクローズドVLMと光学文字認識(OCR)システムを評価した結果、CHURROは他のすべてのVLMを上回ることがわかった。CHURRO-DSテストセットにおいて、CHURROは正規化Levenshtein類似度で印刷物82.3%、手書き物70.1%を達成し、2番目に優れたモデルであるGemini 2.5 Proをそれぞれ1.4%および6.5%上回った一方、15.5倍のコスト効率を実現した。
モデルとデータセットを公開することにより、歴史的テキストの可読性を向上させ、学術研究を加速するためのコミュニティ主導の研究を促進することを目指す。
原文(英語)を表示
Title (EN): CHURRO: Making History Readable with an Open-Weight Large Vision-Language Model for High-Accuracy, Low-Cost Historical Text Recognition
arXiv:2509.19768v1 Announce Type: new
Abstract: Accurate text recognition for historical documents can greatly advance the study and preservation of cultural heritage. Existing vision-language models (VLMs), however, are designed for modern, standardized texts and are not equipped to read the diverse languages and scripts, irregular layouts, and frequent degradation found in historical materials.
This paper presents CHURRO, a 3B-parameter open-weight VLM specialized for historical text recognition. The model is trained on CHURRO-DS, the largest historical text recognition dataset to date. CHURRO-DS unifies 155 historical corpora comprising 99,491 pages, spanning 22 centuries of textual heritage across 46 language clusters, including historical variants and dead languages.
We evaluate several open-weight and closed VLMs and optical character recognition (OCR) systems on CHURRO-DS and find that CHURRO outperforms all other VLMs. On the CHURRO-DS test set, CHURRO achieves 82.3% (printed) and 70.1% (handwritten) normalized Levenshtein similarity, surpassing the second-best model, Gemini 2.5 Pro, by 1.4% and 6.5%, respectively, while being 15.5 times more cost-effective.
By releasing the model and dataset, we aim to enable community-driven research to improve the readability of historical texts and accelerate scholarship.
Published: 2025-09-24 19:00 UTC