ソーシャルメディアデータにおけるBERTopicへのLLM支援トピック削減
なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。
arXiv:2509.19365v1 発表種別: 新規
要約: BERTopicフレームワークは、トランスフォーマー埋め込みと階層的クラスタリングを活用して、非構造化テキストコーパスから潜在トピックを抽出します。効果的である一方で、ノイズが多くスパースな傾向にあるソーシャルメディアデータでは、多くの重複トピックが生じるため、しばしば困難を伴います。最近の研究では、エンドツーエンドのトピックモデリングに大規模言語モデルの利用が検討されています。しかし、これらのアプローチは通常、膨大な計算オーバーヘッドを必要とするため、ビッグデータコンテキストにおけるスケーラビリティが制限されます。本研究では、トピック生成にBERTopicを、トピック削減に大規模言語モデルを組み合わせたフレームワークを提案します。この手法は、まず初期のトピック集合を生成し、各トピックの表現を構築します。次に、これらの表現を言語モデルへの入力として提供し、意味的に類似したトピックを反復的に識別してマージします。3つのTwitter/Xデータセットと4つの異なる言語モデルを用いて、このアプローチを評価しました。本手法は、ベースラインアプローチと比較して、トピックの多様性を向上させ、多くの場合、一貫性を向上させますが、データセットの特徴と初期パラメータの選択によっては影響を受けます。
原文(英語)を表示
Title (EN): LLM-Assisted Topic Reduction for BERTopic on Social Media Data
arXiv:2509.19365v1 Announce Type: new
Abstract: The BERTopic framework leverages transformer embeddings and hierarchical clustering to extract latent topics from unstructured text corpora. While effective, it often struggles with social media data, which tends to be noisy and sparse, resulting in an excessive number of overlapping topics. Recent work explored the use of large language models for end-to-end topic modelling. However, these approaches typically require significant computational overhead, limiting their scalability in big data contexts. In this work, we propose a framework that combines BERTopic for topic generation with large language models for topic reduction. The method first generates an initial set of topics and constructs a representation for each. These representations are then provided as input to the language model, which iteratively identifies and merges semantically similar topics. We evaluate the approach across three Twitter/X datasets and four different language models. Our method outperforms the baseline approach in enhancing topic diversity and, in many cases, coherence, with some sensitivity to dataset characteristics and initial parameter selection.
Published: 2025-09-24 19:00 UTC