大規模言語モデル(LLM): 記号主義と分散表現アプローチの統合

大規模言語モデル(LLM): 記号主義と分散表現アプローチの統合

なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。

ソースを読む(export.arxiv.org)

arXiv:2502.11856v2 発表種別:差し替え

要旨: 20世紀半ば以来、言語と認知に対する記号的アプローチと分散的アプローチの間で激しい論争が繰り広げられてきた。深層学習モデル、特に大規模言語モデル(LLM)の成功は、分散的アプローチの勝利を示すものと解釈される一方、無関係な工学的発展として退けられることさえあった。本稿では、言語のための深層学習モデルは、実際には両方の伝統の融合を表していることを論じる。これは、1) 深層学習アーキテクチャは、分散的/連続的/曖昧な表現と処理と、記号的/離散的/カテゴリ的な表現と処理の両方を許容するからであり、2) 言語で訓練されたモデルはこの柔軟性を活用しているからである。特に、形態統語論的な知識のかなりの部分が、LLMにおいてほぼ離散的な形で符号化されていることを示す、最近の解釈可能性に関する研究を概観する。この一連の研究は、異なる挙動が創発的に生じ、モデルが必要に応じて柔軟に両方のモード(そしてその中間)を切り替えることを示唆している。これは、それらの驚くべき成功の主な理由の一つであり、それらを言語研究にとって特に興味深いものとしている。和解の時か?

原文(英語)を表示

Title (EN): LLMs as a synthesis between symbolic and distributed approaches to language

arXiv:2502.11856v2 Announce Type: replace
Abstract: Since the middle of the 20th century, a fierce battle is being fought between symbolic and distributed approaches to language and cognition. The success of deep learning models, and LLMs in particular, has been alternatively taken as showing that the distributed camp has won, or dismissed as an irrelevant engineering development. In this position paper, I argue that deep learning models for language actually represent a synthesis between the two traditions. This is because 1) deep learning architectures allow for both distributed/continuous/fuzzy and symbolic/discrete/categorical-like representations and processing; 2) models trained on language make use of this flexibility. In particular, I review recent research in interpretability that showcases how a substantial part of morphosyntactic knowledge is encoded in a near-discrete fashion in LLMs. This line of research suggests that different behaviors arise in an emergent fashion, and models flexibly alternate between the two modes (and everything in between) as needed. This is possibly one of the main reasons for their wild success; and it makes them particularly interesting for the study of language. Is it time for peace?

Published: 2025-09-24 19:00 UTC


コメントする