eRisk@CLEF 2025におけるSINAI:うつ病検出のためのTransformerベースおよび対話型戦略
なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。
arXiv:2509.19861v1発表、新規。
概要:本論文は、SINAI-UJAチームのeRisk@CLEF 2025ラボへの参加について記述する。具体的には、提案されたタスクのうち2つ、(i) タスク2:文脈に基づいたうつ病の早期検出、および(ii) パイロットタスク:LLMを用いた会話型うつ病検出に取り組んだ。タスク2に対する我々のアプローチは、広範な前処理パイプラインと、RoBERTa BaseやMentalRoBERTa Largeなどの複数のTransformerベースモデルを用いた手法を組み合わせ、複数ユーザー間の会話の文脈的および時系列的な性質を捉える。パイロットタスクでは、限定されたターン数内で情報利得を最大化することに重点を置き、LLM搭載パーソナと対話するための会話戦略を設計した。タスク2では、F1スコアに基づき12チーム中8位にランクされた。しかし、詳細な分析の結果、我々のモデルは早期予測の発行において最も速いものの1つであったことが明らかになり、これは現実世界の展開シナリオにおいて重要な要素である。これは、早期検出と分類精度の間のトレードオフを示しており、将来の研究において両者を同時に最適化する可能性を示唆している。パイロットタスクでは、5チーム中1位となり、DCHR、ADODL、ASHRのすべての評価指標において最高の総合成績を達成した。このタスクにおける成功は、強力な言語モデルと組み合わせた構造化された会話設計の有効性を示しており、デリケートな精神保健評価の文脈におけるLLMの展開の可能性を強化する。
原文(英語)を表示
Title (EN): SINAI at eRisk@CLEF 2025: Transformer-Based and Conversational Strategies for Depression Detection
arXiv:2509.19861v1 Announce Type: new
Abstract: This paper describes the participation of the SINAI-UJA team in the eRisk@CLEF 2025 lab. Specifically, we addressed two of the proposed tasks: (i) Task 2: Contextualized Early Detection of Depression, and (ii) Pilot Task: Conversational Depression Detection via LLMs. Our approach for Task 2 combines an extensive preprocessing pipeline with the use of several transformer-based models, such as RoBERTa Base or MentalRoBERTA Large, to capture the contextual and sequential nature of multi-user conversations. For the Pilot Task, we designed a set of conversational strategies to interact with LLM-powered personas, focusing on maximizing information gain within a limited number of dialogue turns. In Task 2, our system ranked 8th out of 12 participating teams based on F1 score. However, a deeper analysis revealed that our models were among the fastest in issuing early predictions, which is a critical factor in real-world deployment scenarios. This highlights the trade-off between early detection and classification accuracy, suggesting potential avenues for optimizing both jointly in future work. In the Pilot Task, we achieved 1st place out of 5 teams, obtaining the best overall performance across all evaluation metrics: DCHR, ADODL and ASHR. Our success in this task demonstrates the effectiveness of structured conversational design when combined with powerful language models, reinforcing the feasibility of deploying LLMs in sensitive mental health assessment contexts.
Published: 2025-09-24 19:00 UTC