実世界への応用に向けたRAGシステムの設計、開発、および評価
なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。
arXiv:2506.20869v3発表タイプ:置換クロス
要約:検索拡張生成(RAG)システムは、外部知識に基づいて大規模言語モデル(LLM)を基盤付ける主要なアプローチとして台頭しており、事実の正確性と文脈的関連性の限界に対処しています。しかしながら、現実世界のユースケースに基づいたRAGベースの実装の開発について報告し、一般的なユーザーの関与を通じて評価され、得られた教訓の体系的な文書化を伴う経験的研究は不足しています。本論文では、ガバナンス、サイバーセキュリティ、農業、産業研究、医療診断にわたる現実世界のシナリオのために開発された5つのドメイン固有のRAGアプリケーションを紹介します。各システムは、多言語OCR、ベクトル埋め込みによる意味検索、およびドメインに適応されたLLMを組み込んでおり、ローカルサーバーまたはクラウドAPIを通じて展開され、個々のユーザーニーズを満たします。合計100人の参加者によるウェブベースの評価では、(i)使いやすさ、(ii)関連性、(iii)透明性、(iv)応答性、(v)正確性、および(vi)推奨可能性の6つの次元でシステムを評価しました。ユーザーフィードバックと開発経験に基づいて、12の重要な教訓を文書化し、実践におけるRAGシステムの信頼性と有用性に影響を与える技術的、運用上、および倫理的な課題を強調しました。
原文(英語)を表示
Title (EN): Engineering RAG Systems for Real-World Applications: Design, Development, and Evaluation
arXiv:2506.20869v3 Announce Type: replace-cross
Abstract: Retrieval-Augmented Generation (RAG) systems are emerging as a key approach for grounding Large Language Models (LLMs) in external knowledge, addressing limitations in factual accuracy and contextual relevance. However, there is a lack of empirical studies that report on the development of RAG-based implementations grounded in real-world use cases, evaluated through general user involvement, and accompanied by systematic documentation of lessons learned. This paper presents five domain-specific RAG applications developed for real-world scenarios across governance, cybersecurity, agriculture, industrial research, and medical diagnostics. Each system incorporates multilingual OCR, semantic retrieval via vector embeddings, and domain-adapted LLMs, deployed through local servers or cloud APIs to meet distinct user needs. A web-based evaluation involving a total of 100 participants assessed the systems across six dimensions: (i) Ease of Use, (ii) Relevance, (iii) Transparency, (iv) Responsiveness, (v) Accuracy, and (vi) Likelihood of Recommendation. Based on user feedback and our development experience, we documented twelve key lessons learned, highlighting technical, operational, and ethical challenges affecting the reliability and usability of RAG systems in practice.
Published: 2025-09-24 19:00 UTC