TALEC:社内基準による個別領域評価をLLMに学習させる、ゼロショットおよび少ショット学習

TALEC:社内基準による個別領域評価をLLMに学習させる、ゼロショットおよび少ショット学習

なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。

ソースを読む(export.arxiv.org)

arXiv:2407.10999v2発表、種類:置換

概要:大規模言語モデル(LLM)の急速な発展に伴い、LLMの評価がますます重要になっています。要約や記事作成などのテキスト生成タスクの測定は非常に困難です。特に、ビジネス向けや顧客サービス向けなど特定の応用分野においては、社内評価基準が一般的な基準(正確性、有益性、創造性など)だけでなく、顧客の特定ニーズとビジネスセキュリティ要件を同時に満たす必要があり、評価がより困難になります。これまで、ビジネスシナリオにおけるLLMの評価は主に手動に依存しており、コストと時間がかかります。本論文では、ユーザーが自由に評価基準を設定でき、インコンテキスト学習(ICL)を用いて評価モデルにこれらの社内基準を学習させるモデルベースの評価手法TALECを提案します。さらに、ゼロショットとフューショットを組み合わせることで、評価モデルがより多くの情報に焦点を当てるように試みました。また、ショットを調整・反復するためのプロンプトパラダイムとエンジニアリングアプローチを提案し、評価モデルが複雑な基準をより良く理解できるように支援します。その後、ファインチューニングとICLを比較し、ファインチューニングをICLで置き換えられることを明らかにしました。TALECは人間の選好を正確に反映する強力な能力を示し、人間の判断との相関が80%を超え、一部のタスクでは人間間の相関よりも優れた性能を達成しました。コードはhttps://github.com/zlkqz/auto_evalで公開されています。

原文(英語)を表示

Title (EN): TALEC: Teach Your LLM to Evaluate in Specific Domain with In-house Criteria by Criteria Division and Zero-shot Plus Few-shot

arXiv:2407.10999v2 Announce Type: replace-cross
Abstract: With the rapid development of large language models (LLM), the evaluation of LLM becomes increasingly important. Measuring text generation tasks such as summarization and article creation is very difficult. Especially in specific application domains (e.g., to-business or to-customer service), in-house evaluation criteria have to meet not only general standards (correctness, helpfulness and creativity, etc.) but also specific needs of customers and business security requirements at the same time, making the evaluation more difficult. So far, the evaluation of LLM in business scenarios has mainly relied on manual, which is expensive and time-consuming. In this paper, we propose a model-based evaluation method: TALEC, which allows users to flexibly set their own evaluation criteria, and uses in-context learning (ICL) to teach judge model these in-house criteria. In addition, we try combining zero-shot and few-shot to make the judge model focus on more information. We also propose a prompt paradigm and an engineering approach to adjust and iterate the shots ,helping judge model to better understand the complex criteria. We then compare fine-tuning with ICL, finding that fine-tuning can be replaced by ICL. TALEC demonstrates a strong capability to accurately reflect human preferences and achieves a correlation of over 80% with human judgments, outperforming even the inter-human correlation in some tasks. The code is released in https://github.com/zlkqz/auto_eval

Published: 2025-09-24 19:00 UTC


コメントする