テキストと時系列データのインターリーブシーケンスからの金融予測のための、モダリティ特化型専門家を持つマルチモーダル言語モデル
なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。
arXiv:2509.19628v1発表タイプ:クロス
概要:テキストデータと時系列データは、金融市場を補完的に捉える:ニュース記事は企業イベントに関する記述的背景を提供し、株価は市場がそれらのイベントにどのように反応するかを反映する。しかし、それらの補完的な性質にもかかわらず、予測精度向上のためのこれらのインターリーブされたモダリティの有効な統合は依然として課題である。本研究では、モダリティ特化型エキスパートを用いてこれらのインターリーブされたシーケンスをモデル化する統一的なニューラルアーキテクチャを提案し、モデルが固有の時系列パターンを学習することを可能にしつつ、モダリティ間の同時推論と事前学習済み言語理解能力の維持を可能にする。さらに多様なモダリティ理解を向上させるため、最も有益なトークンに焦点を当ててモダリティ間の表現を整合させる顕著なトークン重み付けメカニズムを備えたクロスモーダルアライメントフレームワークを導入する。大規模な金融予測タスクにおいて、本手法の有効性を示し、多様な強力な単一モダリティおよび多様なモダリティベースラインにわたって最先端の性能を達成する。時系列コンテキストの価値を明らかにし、クロスモーダルアライメント目的の設計を強化する解釈可能性手法を開発する。最後に、これらの改善が投資シミュレーションにおける意味のある経済的利益に繋がることを示す。
原文(英語)を表示
Title (EN): Multimodal Language Models with Modality-Specific Experts for Financial Forecasting from Interleaved Sequences of Text and Time Series
arXiv:2509.19628v1 Announce Type: cross
Abstract: Text and time series data offer complementary views of financial markets: news articles provide narrative context about company events, while stock prices reflect how markets react to those events. However, despite their complementary nature, effectively integrating these interleaved modalities for improved forecasting remains challenging. In this work, we propose a unified neural architecture that models these interleaved sequences using modality-specific experts, allowing the model to learn unique time series patterns, while still enabling joint reasoning across modalities and preserving pretrained language understanding capabilities. To further improve multimodal understanding, we introduce a cross-modal alignment framework with a salient token weighting mechanism that learns to align representations across modalities with a focus on the most informative tokens. We demonstrate the effectiveness of our approach on a large-scale financial forecasting task, achieving state-of-the-art performance across a wide variety of strong unimodal and multimodal baselines. We develop an interpretability method that reveals insights into the value of time series-context and reinforces the design of our cross-modal alignment objective. Finally, we demonstrate that these improvements translate to meaningful economic gains in investment simulations.
Published: 2025-09-24 19:00 UTC