多次元投影における信頼できるクラスタ分析のための歪み認識ブラッシング
なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。
arXiv:2201.06379v3 発表種別:差し替え
概要:ブラッシングは2次元散布図における一般的なインタラクション手法であり、連続した閉領域内のクラスタ化された点をユーザーが選択し、更なる分析やフィルタリングを行うことを可能にする。しかしながら、多次元(MD)データの2次元表現、すなわち多次元射影(MDP)に従来のブラッシングを適用すると、MDPによって生じる歪みが元のMDデータのクラスタ構造を不正確に表現するため、信頼性の低いクラスタ分析につながる可能性がある。この問題を軽減するために、我々はMDPのための新規なブラッシング手法であるDistortion-aware brushingを提案する。ユーザーがブラッシングを行うと、Distortion-aware brushingは、現在ブラッシングされている点の周りの歪みを動的に点を射影内で再配置することで補正し、MD空間でブラッシングされた点に近いデータ点を引き寄せ、遠い点を押し離す。この動的な調整により、ユーザーはMDクラスタをより正確にブラッシングし、より信頼性の高いクラスタ分析を行うことができる。24人の参加者によるユーザー調査では、Distortion-aware brushingは、MD空間におけるクラスタの正確な分離において、以前のMDP用ブラッシング手法を大幅に凌駕し、歪みにも強いことが示された。さらに、我々は2つのユースケース:(1)地理空間データのクラスタ分析の実施、(2)MDクラスタのインタラクティブなラベル付け、を通して、我々の手法の有効性を示す。
原文(英語)を表示
Title (EN): Distortion-Aware Brushing for Reliable Cluster Analysis in Multidimensional Projections
arXiv:2201.06379v3 Announce Type: replace-cross
Abstract: Brushing is a common interaction technique in 2D scatterplots, allowing users to select clustered points within a continuous, enclosed region for further analysis or filtering. However, applying conventional brushing to 2D representations of multidimensional (MD) data, i.e., Multidimensional Projections (MDPs), can lead to unreliable cluster analysis due to MDP-induced distortions that inaccurately represent the cluster structure of the original MD data. To alleviate this problem, we introduce a novel brushing technique for MDPs called Distortion-aware brushing. As users perform brushing, Distortion-aware brushing corrects distortions around the currently brushed points by dynamically relocating points in the projection, pulling data points close to the brushed points in MD space while pushing distant ones apart. This dynamic adjustment helps users brush MD clusters more accurately, leading to more reliable cluster analysis. Our user studies with 24 participants show that Distortion-aware brushing significantly outperforms previous brushing techniques for MDPs in accurately separating clusters in the MD space and remains robust against distortions. We further demonstrate the effectiveness of our technique through two use cases: (1) conducting cluster analysis of geospatial data and (2) interactively labeling MD clusters.
Published: 2025-09-24 19:00 UTC