CON-QA:契約領域におけるクラウドLLMを用いたプライバシー保護QA

CON-QA:契約領域におけるクラウドLLMを用いたプライバシー保護QA

なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。

ソースを読む(export.arxiv.org)

arXiv:2509.19925v1 発表種別:新規

概要:企業がChatGPTやGeminiなどのクラウドベースの大規模言語モデル(LLM)を法的文書ワークフローにますます統合するにつれて、個人識別情報(PII)や商業的に機密性の高い条項を含む機密契約情報の保護が重要な課題として浮上しています。本研究では、企業契約に関するセキュアな質問応答のために特別に設計された、ハイブリッドプライバシー保護フレームワークであるCON-QAを提案します。これは、ローカルに展開されたLLMとクラウドホスト型のLLMを効果的に組み合わせたものです。CON-QAフレームワークは、(i) ローカルに展開されたLLM分析を用いた意味的クエリ分解とクエリ認識ドキュメントチャンク検索、(ii) 構造化された一対多マッピングスキームによる検出された機密エンティティの匿名化(セマンティックな一貫性を維持しながら、セッション間のエンティティ推論攻撃を防ぐ)、(iii) クラウドベースのLLMによる匿名化された応答生成、およびセッションに一貫した多対一逆マッピングを用いた元の回答の正確なローカルな再構成、の3つの段階で動作します。CON-QAを厳密に評価するために、単純なクエリ、複雑なクエリ、要約スタイルのクエリを含む、510件の実世界のCUAD契約文書から生成された85,000件の質問回答ペアのコーパスであるCUAD-QAを導入します。詳細な人的評価を補完する経験的評価により、CON-QAがプライバシーとユーティリティの両方を効果的に維持し、回答の質を維持し、法的条項のセマンティクスへの忠実性を維持し、プライバシーリスクを大幅に軽減することを確認し、安全な企業レベルの契約文書に対する実用性を示しています。

原文(英語)を表示

Title (EN): CON-QA: Privacy-Preserving QA using cloud LLMs in Contract Domain

arXiv:2509.19925v1 Announce Type: new
Abstract: As enterprises increasingly integrate cloud-based large language models (LLMs) such as ChatGPT and Gemini into their legal document workflows, protecting sensitive contractual information – including Personally Identifiable Information (PII) and commercially sensitive clauses – has emerged as a critical challenge. In this work, we propose CON-QA, a hybrid privacy-preserving framework designed specifically for secure question answering over enterprise contracts, effectively combining local and cloud-hosted LLMs. The CON-QA framework operates through three stages: (i) semantic query decomposition and query-aware document chunk retrieval using a locally deployed LLM analysis, (ii) anonymization of detected sensitive entities via a structured one-to-many mapping scheme, ensuring semantic coherence while preventing cross-session entity inference attacks, and (iii) anonymized response generation by a cloud-based LLM, with accurate reconstruction of the original answer locally using a session-consistent many-to-one reverse mapping. To rigorously evaluate CON-QA, we introduce CUAD-QA, a corpus of 85k question-answer pairs generated over 510 real-world CUAD contract documents, encompassing simple, complex, and summarization-style queries. Empirical evaluations, complemented by detailed human assessments, confirm that CON-QA effectively maintains both privacy and utility, preserves answer quality, maintains fidelity to legal clause semantics, and significantly mitigates privacy risks, demonstrating its practical suitability for secure, enterprise-level contract documents.

Published: 2025-09-24 19:00 UTC


コメントする