Meeseeks:フィードバック主導型反復的自己修正ベンチマークによる大規模言語モデルの指示遵守能力評価

Meeseeks:フィードバック主導型反復的自己修正ベンチマークによる大規模言語モデルの指示遵守能力評価

なぜ重要か: パフォーマンス指標が更新され、選定・置換の判断材料になります。

ソースを読む(export.arxiv.org)

arXiv:2504.21625v5 発表種別:差し替え

要約:指示への正確な遵守能力は、大規模言語モデル(LLM)が現実世界のシナリオにおいて信頼できるエージェントとして機能するための礎石です。しかし、複雑なプロンプトに直面すると、LLMは単一応答内で指定された要件をすべて満たすことに多くの困難を経験します。Chain-of-Thought(CoT)プロンプティングと自己修正手法の最近の進歩に着想を得て、統合フィードバックメカニズムを備えた、完全に自動化された反復的な指示遵守ベンチマークであるMeeseeks(名称は「リックとモーティ」のミスター・ミーシックス(https://en.wikipedia.org/wiki/Mr._Meeseeks参照)から着想を得ています。同キャラクターは割り当てられたタスクを効率的に達成することで知られています)を紹介します。Meeseeksはモデル応答における誤った構成要素を特定し、それに対応するフィードバックを正確に提供することにより、モデルを自己修正に向けて反復的に導きます。このデータセットは、中国語と英語で32種類の異なる能力タグによってアノテーションされた、700を超える厳選された事例を含んでいます。広範な実験結果から、最先端の商用およびオープンソースLLMは性能に大きなばらつきがあり、反復的なフィードバック駆動型自己修正を20ターン行った後でも、ほとんどすべてのモデルが最適以下の性能を示すことが明らかになりました。マクロレベルと事例レベルの両方から包括的な分析を行い、現在の最先端モデルに普遍的に見られる多くの共通の問題、およびいくつかの反直感的な現象を明らかにしました。本研究はhttps://github.com/ADoublLEN/Meeseeksにてオープンソース化しました。

原文(英語)を表示

Title (EN): Meeseeks: A Feedback-Driven, Iterative Self-Correction Benchmark evaluating LLMs’ Instruction Following Capability

arXiv:2504.21625v5 Announce Type: replace
Abstract: The capability to precisely adhere to instructions is a cornerstone for Large Language Models (LLMs) to function as dependable agents in real-world scenarios. However, confronted with complex prompts, LLMs frequently encounter difficulties in fulfilling all specified requirements within a single response. Drawing inspiration from recent advancements in Chain-of-Thought (CoT) prompting and self-correction methodologies, we introduce Meeseeks (The name is inspired by Mr. Meeseeks from “Rick and Morty,” a character renowned for efficiently accomplishing assigned tasks. See: https://en.wikipedia.org/wiki/Mr._Meeseeks), a fully automated iterative instruction-following benchmark equipped with an integrated feedback mechanism. Meeseeks identifies erroneous components in model responses and provides corresponding feedback accurately, thereby iteratively guiding the model toward self-correction. The dataset contains over 700 curated instances annotated by 32 distinct capability tags in Chinese and English. Extensive experimental results reveal that different state-of-the-art commercial and open-source LLMs exhibit vastly disparate performance, and even after 20 turns of iterative feedback-driven self-correction, nearly all models demonstrate suboptimal performance. We conducted comprehensive analysis from both macro and instance levels, uncovering numerous common issues prevalent in current state-of-the-art models, as well as several counterintuitive phenomena. We’ve open-sourced our work on https://github.com/ADoublLEN/Meeseeks.

Published: 2025-09-24 19:00 UTC


コメントする