言葉だけでは伝えきれないもの:多様な動画苦情データセットを用いた動画ベースのユーザー苦情テキスト生成に向けて

言葉だけでは伝えきれないもの:多様な動画苦情データセットを用いた動画ベースのユーザー苦情テキスト生成に向けて

なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。

ソースを読む(export.arxiv.org)

arXiv:2509.19952v1発表タイプ:クロス

概要:説明可能な苦情マイニングに関する研究は数多く存在するものの、テキストまたはビデオを通じてユーザーの懸念を明確に表現することは依然として大きな課題であり、問題が未解決のままとなることが多い。ユーザーはテキストで苦情を明確に表現することに苦労するが、製品の欠陥を示すビデオを簡単にアップロードできる(例:「最悪の製品」という曖昧なテキストと、右側のイヤカップが壊れたヘッドホンを示す5秒間のビデオ)。本論文では、一般的なユーザーが表現力豊かな苦情を書くというニーズを支援するための、苦情マイニング分野における新たなタスク、ビデオからの苦情記述(CoD-V)(例:上記のユーザーが欠陥のある右側のイヤカップに関する苦情を明確に表現するのを支援する)を定式化する。この目的のために、1,175件の苦情ビデオとその対応する説明を含むビデオ苦情データセットComVIDを紹介する。これには、苦情者の感情状態もアノテーションされている。さらに、提案された(CoD-V)タスクを標準的なビデオ要約生成タスクや記述タスクと区別する新たな苦情保持(CR)評価指標を提案する。この取り組みを強化するために、ユーザーの感情状態を考慮して苦情を生成するように設計された、マルチモーダルなRetrieval-Augmented Generation(RAG)埋め込みVideoLLaMA2-7bモデルを紹介する。様々な評価指標(METEOR、perplexity、Coleman-Liau readability scoreなど)を用いて、いくつかのタスクにおいて様々なビデオ言語モデル(事前学習済みおよび微調整済みバージョン)の包括的な評価を行う。本研究は、ユーザーがビデオを通じて苦情を表現するためのプラットフォームを提供する新たな研究方向の基礎を築くものである。データセットとリソースはhttps://github.com/sarmistha-D/CoD-Vで入手可能である。

原文(英語)を表示

Title (EN): When Words Can’t Capture It All: Towards Video-Based User Complaint Text Generation with Multimodal Video Complaint Dataset

arXiv:2509.19952v1 Announce Type: cross
Abstract: While there exists a lot of work on explainable complaint mining, articulating user concerns through text or video remains a significant challenge, often leaving issues unresolved. Users frequently struggle to express their complaints clearly in text but can easily upload videos depicting product defects (e.g., vague text such as `worst product’ paired with a 5-second video depicting a broken headphone with the right earcup). This paper formulates a new task in the field of complaint mining to aid the common users’ need to write an expressive complaint, which is Complaint Description from Videos (CoD-V) (e.g., to help the above user articulate her complaint about the defective right earcup). To this end, we introduce ComVID, a video complaint dataset containing 1,175 complaint videos and the corresponding descriptions, also annotated with the emotional state of the complainer. Additionally, we present a new complaint retention (CR) evaluation metric that discriminates the proposed (CoD-V) task against standard video summary generation and description tasks. To strengthen this initiative, we introduce a multimodal Retrieval-Augmented Generation (RAG) embedded VideoLLaMA2-7b model, designed to generate complaints while accounting for the user’s emotional state. We conduct a comprehensive evaluation of several Video Language Models on several tasks (pre-trained and fine-tuned versions) with a range of established evaluation metrics, including METEOR, perplexity, and the Coleman-Liau readability score, among others. Our study lays the foundation for a new research direction to provide a platform for users to express complaints through video. Dataset and resources are available at: https://github.com/sarmistha-D/CoD-V.

Published: 2025-09-24 19:00 UTC


コメントする