多面的オフポリシー評価と整合性

多面的オフポリシー評価と整合性

なぜ重要か: 法規制・制度面での動きが企業のAI活用に直接影響する可能性があります。

ソースを読む(export.arxiv.org)

arXiv:2509.19333v1発表タイプ:クロス

要約:多様な人間の好みを持つ大規模言語モデル(LLM)に対するパーソナライズされた選好アラインメントには、多元性を捉える評価とアラインメント手法が必要です。既存の選好アラインメントデータセットのほとんどは、評価対象のLLMとは大きく異なるポリシーの下でログ記録されており、既存のオフポリシー推定器は全体的な効用だけに焦点を当て、選好の多元性を無視しています。したがって、オフポリシー評価(OPE)を多元的な選好アラインメントに拡張することは、未解決の問題です。そこで、本稿では、LLMにおけるオフラインの多元的な選好評価とアラインメントのための最初の枠組みであるPluralistic Off-Policy Evaluation(POPE)を提案します。POPEは、(1)人間の選好シグナル(例:アップボットや関連性スコア)から導出された協調的な効用成分と、(2)エントロピーに基づくカバレッジ尺度に着想を得た多様性成分を組み合わせた統一的な報酬関数を備え、多元的なアラインメントを反映しています。さらに、ログ記録されたインタラクションからこの報酬を推定するために、関連性と多様性を別々に評価する分解可能な逆傾向スコア(IPS)推定器を導出します。理論的には、我々の分解されたIPS推定器がそれらの分散の下限を確立することを証明します。オフポリシーで評価された価値関数を使用して、オフポリシー最適化を直接有効化し、多元的なアラインメントをさらに強化することができます。実験結果は、POPEが多元的な応答生成を効率的に強化し、下流タスクにおけるモデルの一般的な能力を維持することを示しています。

原文(英語)を表示

Title (EN): Pluralistic Off-policy Evaluation and Alignment

arXiv:2509.19333v1 Announce Type: cross
Abstract: Personalized preference alignment for LLMs with diverse human preferences requires evaluation and alignment methods that capture pluralism. Most existing preference alignment datasets are logged under policies that differ substantially from the evaluated LLMs, and existing off-policy estimators focus solely on overall utility while ignoring preference pluralism. Extending Off-Policy Evaluation (OPE) to pluralistic preference alignment, therefore, remains an open question. Thus, we propose the Pluralistic Off-Policy Evaluation (POPE), the first framework for offline pluralistic preference evaluation and alignment in LLMs. POPE includes a unified reward function that combines (1) a collaborative utility component derived from human preference signals (e.g., upvotes or relevance scores) and (2) a diversity component inspired by entropy-based coverage measures, together reflecting pluralistic alignment. Furthermore, to estimate this reward from logged interactions, we derive decomposable inverse propensity scoring (IPS) estimators that separately evaluate relevance and diversity. Theoretically, we prove that our decomposed IPS estimators establish a lower bound on their variance. With the off-policy evaluated value function, we can directly enable off-policy optimization to further enhance pluralistic alignment. Empirical results demonstrate that POPE efficiently enhances pluralistic response generation and maintains the models’ general capabilities on downstream tasks

Published: 2025-09-24 19:00 UTC


コメントする