マルチモーダル表現‐分離情報ボトルネックによるマルチモーダル推薦

マルチモーダル表現‐分離情報ボトルネックによるマルチモーダル推薦

なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。

ソースを読む(export.arxiv.org)

arXiv:2509.20225v1発表タイプ: クロス

概要: 多様な情報源を統合することでユーザーの嗜好とアイテムの特性をモデル化し、マルチモーダルデータはレコメンデーションシステムを大幅に進歩させてきました。しかし、これらのシステムはしばしば冗長で無関係な情報に苦戦し、性能を低下させる可能性があります。既存の方法のほとんどは、マルチモーダル情報を直接融合するか、もつれの解明のために硬直的なアーキテクチャ分離を用いるため、ノイズを適切にフィルタリングし、モダリティ間の複雑な相互作用をモデル化することができません。これらの課題に対処するために、私たちは新しいフレームワークであるMultimodal Representation-disentangled Information Bottleneck (MRdIB)を提案します。具体的には、まずMultimodal Information Bottleneckを用いて入力表現を圧縮し、タスクに無関係なノイズを効果的にフィルタリングしながら、豊富な意味情報を保持します。次に、レコメンデーションターゲットとの関係に基づいて、固有、冗長、相乗的な構成要素に情報を分解します。この分解は、モダリティ固有のシグナルを保持するための固有情報学習目的、重複を最小限にするための冗長情報学習目的、そして新たな情報を捉えるための相乗的情報学習目的という一連の制約によって達成されます。これらの目的を最適化することで、MRdIBはより強力で解きほぐされた表現を学習するモデルを導きます。いくつかの競合モデルと3つのベンチマークデータセットに関する広範な実験は、マルチモーダルレコメンデーションにおけるMRdIBの有効性と汎用性を示しています。

原文(英語)を表示

Title (EN): Multimodal Representation-disentangled Information Bottleneck for Multimodal Recommendation

arXiv:2509.20225v1 Announce Type: cross
Abstract: Multimodal data has significantly advanced recommendation systems by integrating diverse information sources to model user preferences and item characteristics. However, these systems often struggle with redundant and irrelevant information, which can degrade performance. Most existing methods either fuse multimodal information directly or use rigid architectural separation for disentanglement, failing to adequately filter noise and model the complex interplay between modalities. To address these challenges, we propose a novel framework, the Multimodal Representation-disentangled Information Bottleneck (MRdIB). Concretely, we first employ a Multimodal Information Bottleneck to compress the input representations, effectively filtering out task-irrelevant noise while preserving rich semantic information. Then, we decompose the information based on its relationship with the recommendation target into unique, redundant, and synergistic components. We achieve this decomposition with a series of constraints: a unique information learning objective to preserve modality-unique signals, a redundant information learning objective to minimize overlap, and a synergistic information learning objective to capture emergent information. By optimizing these objectives, MRdIB guides a model to learn more powerful and disentangled representations. Extensive experiments on several competitive models and three benchmark datasets demonstrate the effectiveness and versatility of our MRdIB in enhancing multimodal recommendation.

Published: 2025-09-24 19:00 UTC


コメントする