ポストソ連圏におけるファウンデーションモデルの動向とは何か?
なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。
arXiv:2502.18583v3発表タイプ:差し替え
要約:ポストソビエト諸国の文化は複雑であり、その激動の歴史が現在事象に影響を与え続けている。本研究では、ポストソビエト地域を中心とした、ロシア語とウクライナ語でそれぞれ1147品と823品の料理を含むマルチモーダルデータセットBORSchを構築することで、基盤モデルにおけるポストソビエト文化の食に関する知識を調査する。主要なモデルは、テキストのみとマルチモーダル質問応答(QA)の両方において、ポストソビエト諸国の料理の起源を正しく特定することに苦労しており、代わりに質問の言語と関連付けられた国を過剰に予測することを示す。事前学習データの分析を通じて、これらの結果は、誤解を招く料理の起源の共起と、ロシア語・ウクライナ語のコードスイッチングなどの言語現象によって説明できることを示す。最後に、QAベースの評価を超えるために、モデルが料理の正確な視覚的記述を作成する能力をテストする。このタスクとQAとの間の弱い相関関係は、QAだけでは文化理解の評価として不十分である可能性を示唆している。更なる研究を促進するために、BORSchをhttps://github.com/alavrouk/BORSchで公開する。
原文(英語)を表示
Title (EN): What are Foundation Models Cooking in the Post-Soviet World?
arXiv:2502.18583v3 Announce Type: replace
Abstract: The culture of the Post-Soviet states is complex, shaped by a turbulent history that continues to influence current events. In this study, we investigate the Post-Soviet cultural food knowledge of foundation models by constructing BORSch, a multimodal dataset encompassing 1147 and 823 dishes in the Russian and Ukrainian languages, centered around the Post-Soviet region. We demonstrate that leading models struggle to correctly identify the origins of dishes from Post-Soviet nations in both text-only and multimodal Question Answering (QA), instead over-predicting countries linked to the language the question is asked in. Through analysis of pretraining data, we show that these results can be explained by misleading dish-origin co-occurrences, along with linguistic phenomena such as Russian-Ukrainian code mixing. Finally, to move beyond QA-based assessments, we test models’ abilities to produce accurate visual descriptions of dishes. The weak correlation between this task and QA suggests that QA alone may be insufficient as an evaluation of cultural understanding. To foster further research, we will make BORSch publicly available at https://github.com/alavrouk/BORSch.
Published: 2025-09-24 19:00 UTC