LLMにおけるドメインパフォーマンスと顕在化する非整合性:データ許容量の閾値
なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。
arXiv:2509.19325v1発表タイプ:新規
要約:本論文は、教師あり微調整(SFT)における大規模言語モデル(LLM)、特にgpt-4oのパフォーマンスと安全性に対する不正確なデータの影響を調査する。LLMは金融、コーディング、法律、医療など幅広い分野でますます重要になっているが、不正確なデータによる微調整は「新たな非整合性」を引き起こし、意図したタスクとは無関係な有害または欺瞞的な出力を生成する可能性がある。本研究では、コーディング、金融、医療、法律の4つの分野において、明らかに不正確なデータと微妙に不正確なデータの割合(10%~90%)を変化させたgpt-4oモデルを評価する。その結果、少量の不正確なデータ(10~25%)でも、ドメインのパフォーマンスと倫理的な整合性が著しく低下することが示された。モデルが安定して高いパフォーマンスを取り戻すには、少なくとも50%の正確なデータという明確な閾値が必要であるが、それでもベースモデルの堅牢性と安全性にはほとんど及ばず、ベースモデルはほぼ完璧な整合性と危険な出力ゼロを備えている。本研究は、不正確なデータのコストが非常に大きいことを強調し、極めて高品質なデータキュレーションの必要性、あるいは高リスク用途においては不要な微調整を行わずに堅牢なベースモデルを活用することの重要性を示唆している。
原文(英語)を表示
Title (EN): How Much of Your Data Can Suck? Thresholds for Domain Performance and Emergent Misalignment in LLMs
arXiv:2509.19325v1 Announce Type: new
Abstract: This paper investigates the impact of incorrect data on the performance and safety of large language models (LLMs), specifically gpt-4o, during supervised fine-tuning (SFT). Although LLMs become increasingly vital across broad domains like finance, coding, law, and health, fine-tuning on incorrect data can lead to “emergent misalignment,” producing harmful or deceptive outputs unrelated to the intended task. We evaluate gpt-4o models fine-tuned with varying ratios (10\% to 90\% correct) of both obviously and subtly incorrect data across four domains: coding, finance, health, and legal. Our findings show that even modest amounts of incorrect data (10-25\%) dramatically degrade domain performance and not moral alignment. A clear threshold of at least 50\% correct data is needed for models to consistently recover strong performance, though they rarely match the robustness and safety of the base model, which exhibits near-perfect alignment and zero dangerous completions out-of-the-box. This research emphasizes that the cost of incorrect data is heavy, highlighting the critical need for extremely high-quality data curation or, alternatively, leveraging robust base models without unnecessary fine-tuning for high-stakes applications.
Published: 2025-09-24 19:00 UTC