DISCOによる均衡化:不均衡データに対する適応型ドメイン・難易度認識強化学習

DISCOによる均衡化:不均衡データに対する適応型ドメイン・難易度認識強化学習

なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。

ソースを読む(export.arxiv.org)

arXiv:2505.15074v3発表、種類:置換

要約:大規模言語モデル(LLM)は、人間のフィードバックからの強化学習(RLHF)を通じて、人間の選好とますます整合性を高めています。RLHF手法の中でも、Group Relative Policy Optimization(GRPO)はその簡潔さと高い性能から注目を集めており、特に学習済み価値関数の必要性を排除しています。しかし、GRPOは暗黙的にバランスの取れたドメイン分布とグループ間の均一な意味整合性を仮定しており、この仮定は現実世界のデータセットではほとんど成り立ちません。多ドメインの不均衡データに適用した場合、GRPOは優勢なドメインに不均衡に最適化され、表現が不足しているドメインを無視し、結果として一般化性能と公平性の低下につながります。本稿では、グループ間の不均衡に対処するGRPOの原理に基づいた拡張手法であるDomain-Informed Self-Consistency Policy Optimization(DISCO)を提案します。これは、2つの主要な革新によって実現されます。ドメインを考慮した報酬スケーリングは、ドメインの普及率に基づいて最適化の重み付けを行うことで、頻度バイアスに対抗します。難易度を考慮した報酬スケーリングは、プロンプトレベルの自己整合性を利用して、より高い学習価値を提供する不確実なプロンプトを特定し、優先順位付けします。これらの戦略を組み合わせることで、ドメイン全体でより公平かつ効果的なポリシー学習を促進します。複数のLLMと歪んだ訓練分布を使用した広範な実験により、DISCOが一般化性能を向上させ、Qwen3モデルで既存のGRPOバリアントを5%上回り、多ドメイン整合性ベンチマークで新たな最先端の結果を達成することを示しました。コードとデータはhttps://github.com/Tonyzhou98/disco_grpoで公開しています。

原文(英語)を表示

Title (EN): DISCO Balances the Scales: Adaptive Domain- and Difficulty-Aware Reinforcement Learning on Imbalanced Data

arXiv:2505.15074v3 Announce Type: replace-cross
Abstract: Large Language Models (LLMs) are increasingly aligned with human preferences through Reinforcement Learning from Human Feedback (RLHF). Among RLHF methods, Group Relative Policy Optimization (GRPO) has gained attention for its simplicity and strong performance, notably eliminating the need for a learned value function. However, GRPO implicitly assumes a balanced domain distribution and uniform semantic alignment across groups, assumptions that rarely hold in real-world datasets. When applied to multi-domain, imbalanced data, GRPO disproportionately optimizes for dominant domains, neglecting underrepresented ones and resulting in poor generalization and fairness. We propose Domain-Informed Self-Consistency Policy Optimization (DISCO), a principled extension to GRPO that addresses inter-group imbalance with two key innovations. Domain-aware reward scaling counteracts frequency bias by reweighting optimization based on domain prevalence. Difficulty-aware reward scaling leverages prompt-level self-consistency to identify and prioritize uncertain prompts that offer greater learning value. Together, these strategies promote more equitable and effective policy learning across domains. Extensive experiments across multiple LLMs and skewed training distributions show that DISCO improves generalization, outperforms existing GRPO variants by 5% on Qwen3 models, and sets new state-of-the-art results on multi-domain alignment benchmarks. Our code and data are available at https://github.com/Tonyzhou98/disco_grpo.

Published: 2025-09-24 19:00 UTC


コメントする