2020年米国国勢調査は想像以上にプライバシー保護に配慮されている
なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。
arXiv:2410.09296v3発表タイプ:代替交差
要旨:米国国勢調査は、連邦資金配分や選挙区画定など、多くの重要な政策決定の基礎となっている。2020年、国勢調査局は、国勢調査データ集計にノイズを注入する開示防止システムを通じて、個々の回答の機密性を保護するため、差分プライバシーを採用した。その後、同局は、公開された保証と比較して、2020年米国国勢調査についてより強力なプライバシー保証を得ることが可能であったか、あるいは同等のプライバシー予算が完全に利用されていたかどうかという公開質問を提起した。
本論文では、全国レベルからブロックレベルまでの8つの地理的レベルそれぞれにおいて、2020年米国国勢調査は、公称保証が示唆するよりも大幅に強力なプライバシー保護を提供することを示すことにより、この質問に肯定的に答える。この知見は、これらの地理的レベルにわたるプライバシー照会の合成に適用されるf-差分プライバシーを用いた、プライバシー損失の正確な追跡によって可能となった。分析の結果、国勢調査局は、2020年国勢調査の指定されたプライバシー保証を満たすために、不必要に高いレベルのノイズを導入していたことが明らかになった。その結果、各地理的レベルについてほぼ同じレベルのプライバシー保護を維持しながら、ノイズ分散を15.08%~24.82%削減できることを示す。これにより、プライバシー保護された国勢調査統計の精度が向上する。収益と教育の関連性を調べる研究を通じて示されるように、国勢調査統計へのノイズ注入の削減は、プライバシー保護された国勢調査データのダウンストリームアプリケーションにおけるプライバシー制約による歪みを軽減することを実証的に示す。
原文(英語)を表示
Title (EN): The 2020 United States Decennial Census Is More Private Than You (Might) Think
arXiv:2410.09296v3 Announce Type: replace-cross
Abstract: The U.S. Decennial Census serves as the foundation for many high-profile policy decision-making processes, including federal funding allocation and redistricting. In 2020, the Census Bureau adopted differential privacy to protect the confidentiality of individual responses through a disclosure avoidance system that injects noise into census data tabulations. The Bureau subsequently posed an open question: Could stronger privacy guarantees be obtained for the 2020 U.S. Census compared to their published guarantees, or equivalently, had the privacy budgets been fully utilized?
In this paper, we address this question affirmatively by demonstrating that the 2020 U.S. Census provides significantly stronger privacy protections than its nominal guarantees suggest at each of the eight geographical levels, from the national level down to the block level. This finding is enabled by our precise tracking of privacy losses using $f$-differential privacy, applied to the composition of private queries across these geographical levels. Our analysis reveals that the Census Bureau introduced unnecessarily high levels of noise to meet the specified privacy guarantees for the 2020 Census. Consequently, we show that noise variances could be reduced by $15.08\%$ to $24.82\%$ while maintaining nearly the same level of privacy protection for each geographical level, thereby improving the accuracy of privatized census statistics. We empirically demonstrate that reducing noise injection into census statistics mitigates distortion caused by privacy constraints in downstream applications of private census data, illustrated through a study examining the relationship between earnings and education.
Published: 2025-09-24 19:00 UTC