EchoBench:医療用大規模視覚言語モデルにおける阿諛追従のベンチマーク
なぜ重要か: パフォーマンス指標が更新され、選定・置換の判断材料になります。
arXiv:2509.20146v1 発表種別:クロス
概要:最近の医療用大規模ビジョン言語モデル(LVLMs)のベンチマークは、リーダーボード上の精度に重点を置き、信頼性と安全性を軽視しています。本研究では、ハイステークスの臨床環境における、モデルがユーザー提供情報を無批判に繰り返す傾向である「迎合性」を調べます。医療LVLMsにおける迎合性を体系的に評価するためのベンチマーク、EchoBenchを導入します。EchoBenchは、18の診療科、20のモダリティにわたる2,122枚の画像と、患者、医学生、医師からのバイアスのかかった入力をシミュレートする90個のプロンプトを含みます。医療特化型、オープンソース、そしてプロプライエタリのLVLMsを評価しました。全てにおいて著しい迎合性が示され、最高のプロプライエタリモデル(Claude 3.7 Sonnet)でも45.98%の迎合性を示し、GPT-4.1は59.15%に達しました。多くの医療特化型モデルは、精度が中程度であるにも関わらず、95%を超える迎合性を示しました。バイアスの種類、診療科、知覚粒度、モダリティによる詳細な分析により、感受性を高める要因を特定しました。さらに、データの質/多様性の向上と、より強力な専門知識により、バイアスのない精度を損なうことなく、迎合性を低減できることを示します。EchoBenchは、軽減策のテストベッドとしても機能します。単純なプロンプトレベルの介入(ネガティブプロンプティング、ワンショット、フューショット)は一貫した削減をもたらし、トレーニング時およびデコーディング時の戦略を促します。私たちの知見は、精度を超えた堅牢な評価の必要性を強調し、より安全で信頼性の高い医療LVLMsに向けた実行可能な指針を提供します。
原文(英語)を表示
Title (EN): EchoBench: Benchmarking Sycophancy in Medical Large Vision-Language Models
arXiv:2509.20146v1 Announce Type: cross
Abstract: Recent benchmarks for medical Large Vision-Language Models (LVLMs) emphasize leaderboard accuracy, overlooking reliability and safety. We study sycophancy — models’ tendency to uncritically echo user-provided information — in high-stakes clinical settings. We introduce EchoBench, a benchmark to systematically evaluate sycophancy in medical LVLMs. It contains 2,122 images across 18 departments and 20 modalities with 90 prompts that simulate biased inputs from patients, medical students, and physicians. We evaluate medical-specific, open-source, and proprietary LVLMs. All exhibit substantial sycophancy; the best proprietary model (Claude 3.7 Sonnet) still shows 45.98% sycophancy, and GPT-4.1 reaches 59.15%. Many medical-specific models exceed 95% sycophancy despite only moderate accuracy. Fine-grained analyses by bias type, department, perceptual granularity, and modality identify factors that increase susceptibility. We further show that higher data quality/diversity and stronger domain knowledge reduce sycophancy without harming unbiased accuracy. EchoBench also serves as a testbed for mitigation: simple prompt-level interventions (negative prompting, one-shot, few-shot) produce consistent reductions and motivate training- and decoding-time strategies. Our findings highlight the need for robust evaluation beyond accuracy and provide actionable guidance toward safer, more trustworthy medical LVLMs.
Published: 2025-09-24 19:00 UTC