ウラニア:AI利用に関する差分プライバシーに基づく知見

ウラニア:AI利用に関する差分プライバシーに基づく知見

なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。

ソースを読む(export.arxiv.org)

arXiv:2506.04681v2発表タイプ: 交互置換

要約: 本稿では、厳格な差分プライバシ(DP)保証を伴う、大規模言語モデル(LLM)チャットボットとの対話に関する知見生成のための新たなフレームワーク「Urania」を紹介する。本フレームワークは、プライベートクラスタリング機構と、頻度ベース、TF-IDFベース、LLM誘導アプローチを含む革新的なキーワード抽出法を採用する。クラスタリング、パーティション選択、ヒストグラムベースのサマリゼーションといったDPツールを活用することで、Uraniaはエンドツーエンドのプライバシ保護を実現する。評価では、語彙・意味的コンテンツの保持、ペア類似性、LLMベースの指標を評価し、非プライベートなClioに着想を得たパイプライン(Tamkin et al., 2024)とベンチマーク比較を行う。さらに、DPパイプラインの強化された堅牢性を示す簡潔な経験的プライバシ評価を開発した。結果は、本フレームワークが厳格なユーザープライバシを維持しながら、意味のある会話に関する知見を抽出できることを示し、データの有用性とプライバシ保護のバランスを効果的に取っている。

原文(英語)を表示

Title (EN): Urania: Differentially Private Insights into AI Use

arXiv:2506.04681v2 Announce Type: replace-cross
Abstract: We introduce $Urania$, a novel framework for generating insights about LLM chatbot interactions with rigorous differential privacy (DP) guarantees. The framework employs a private clustering mechanism and innovative keyword extraction methods, including frequency-based, TF-IDF-based, and LLM-guided approaches. By leveraging DP tools such as clustering, partition selection, and histogram-based summarization, $Urania$ provides end-to-end privacy protection. Our evaluation assesses lexical and semantic content preservation, pair similarity, and LLM-based metrics, benchmarking against a non-private Clio-inspired pipeline (Tamkin et al., 2024). Moreover, we develop a simple empirical privacy evaluation that demonstrates the enhanced robustness of our DP pipeline. The results show the framework’s ability to extract meaningful conversational insights while maintaining stringent user privacy, effectively balancing data utility with privacy preservation.

Published: 2025-09-24 19:00 UTC


コメントする