パーソナライズド生成のためのLLM堅牢性のベンチマークと改善

パーソナライズド生成のためのLLM堅牢性のベンチマークと改善

なぜ重要か: パフォーマンス指標が更新され、選定・置換の判断材料になります。

ソースを読む(export.arxiv.org)

arXiv:2509.19358v1発表形式:クロス

概要:近年、大規模言語モデル(LLM)の応答のパーソナライズ化への関心が高まっている。既存の評価は主に応答がユーザーの嗜好と一致するかどうかを重視するが、事実の正確性も同等に重要でありながら、しばしば見過ごされている側面であると我々は主張する。パーソナライズ化の文脈において、我々は応答が事実上正確であり、かつユーザーの嗜好と一致する場合にモデルを堅牢であると定義する。これを評価するために、LLMにおける堅牢性を評価するためのスケーラブルなフレームワークであるPERGと、新たなデータセットPERGDataを導入する。5つの異なるモデルファミリーから14のモデルを、異なるプロンプティング手法を用いて評価した。その結果、現在のLLMは堅牢なパーソナライズ化に苦労していることが示された。最も強力なモデル(GPT-4.1、LLaMA3-70B)でさえ、パーソナライズ化なしでは以前成功したケースの5%で正確性を維持できず、より小規模なモデル(例:7B規模)では20%以上失敗する可能性がある。更なる分析から、堅牢性はクエリの性質とユーザー嗜好の種類によって大きく影響を受けることが明らかになった。これらの失敗を軽減するために、モデル全体で平均25%の堅牢性を向上させる二段階アプローチであるPref-Alignerを提案する。本研究は、現在の評価方法における重大なギャップを浮き彫りにし、より信頼性の高い、ユーザーに合わせたLLMの展開を支援するためのツールと指標を紹介する。

原文(英語)を表示

Title (EN): Benchmarking and Improving LLM Robustness for Personalized Generation

arXiv:2509.19358v1 Announce Type: cross
Abstract: Recent years have witnessed a growing interest in personalizing the responses of large language models (LLMs). While existing evaluations primarily focus on whether a response aligns with a user’s preferences, we argue that factuality is an equally important yet often overlooked dimension. In the context of personalization, we define a model as robust if its responses are both factually accurate and align with the user preferences. To assess this, we introduce PERG, a scalable framework for evaluating robustness in LLMs, along with a new dataset, PERGData. We evaluate fourteen models from five different model families using different prompting methods. Our findings show that current LLMs struggle with robust personalization: even the strongest models (GPT-4.1, LLaMA3-70B) fail to maintain correctness in 5% of previously successful cases without personalization, while smaller models (e.g., 7B-scale) can fail more than 20% of the time. Further analysis reveals that robustness is significantly affected by the nature of the query and the type of user preference. To mitigate these failures, we propose Pref-Aligner, a two-stage approach that improves robustness by an average of 25% across models. Our work highlights critical gaps in current evaluation practices and introduces tools and metrics to support more reliable, user-aligned LLM deployments.

Published: 2025-09-24 19:00 UTC


コメントする