ファインチューニング済み言語モデルにおけるバックチャネルとフィラーの表現に関する調査

ファインチューニング済み言語モデルにおけるバックチャネルとフィラーの表現に関する調査

なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。

ソースを読む(export.arxiv.org)

arXiv:2509.20237v1 投稿種別:新規

概要:バックチャネルとフィラーは対話における重要な言語表現であるが、最新のTransformer系言語モデル(LM)では十分に表現されていない。本研究では、3つのファインチューニング戦略を用いて、言語モデルにおけるそれらの表現を調査する。バックチャネルとフィラーが保存されアノテーションされた英語と日本語の3つの対話コーパスを用いてモデルを訓練し、ファインチューニングがLMにおけるそれらの表現学習にどのように役立つのかを検討する。まず、学習されたバックチャネルとフィラーの表現にクラスタリング分析を適用し、ファインチューニング済みモデルの表現においてシルエット係数の向上を確認した。これは、ファインチューニングによってLMが異なるバックチャネルとフィラーの使用における微妙な意味的差異を識別できるようになることを示唆している。また、自然言語生成(NLG)指標を用いて、ファインチューニング済み言語モデルによって生成された発話が、人間が生成した発話により近似していることを確認した。これらの知見は、一般的なLMを、より人間らしい言語を適切に生成できる対話型LMに変換する可能性を示唆している。

原文(英語)を表示

Title (EN): Investigating the Representation of Backchannels and Fillers in Fine-tuned Language Models

arXiv:2509.20237v1 Announce Type: new
Abstract: Backchannels and fillers are important linguistic expressions in dialogue, but are under-represented in modern transformer-based language models (LMs). Our work studies the representation of them in language models using three fine-tuning strategies. The models are trained on three dialogue corpora in English and Japanese, where backchannels and fillers are preserved and annotated, to investigate how fine-tuning can help LMs learn their representations. We first apply clustering analysis to the learnt representation of backchannels and fillers, and have found increased silhouette scores in representations from fine-tuned models, which suggests that fine-tuning enables LMs to distinguish the nuanced semantic variation in different backchannel and filler use. We also use natural language generation (NLG) metrics to confirm that the utterances generated by fine-tuned language models resemble human-produced utterances more closely. Our findings suggest the potentials of transforming general LMs into conversational LMs that are more capable of producing human-like languages adequately.

Published: 2025-09-24 19:00 UTC


コメントする