CueGCL:クラスタ認識型パーソナライズ自己学習による教師なしグラフコントラスティブ学習
なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。
arXiv:2311.11073v2発表。タイプ:replace-cross
概要:近年、グラフコントラスティブ学習(GCL)はノードレベルおよび教師ありタスクに対する最適解の一つとして台頭している。しかし、グラフクラスタリングなどの構造関連および教師なしタスクにおいては、現在のGCLアルゴリズムは必要なクラスタレベル情報の獲得に困難を抱え、性能が低い。さらに、一般的な教師なしGCLはネガティブサンプル数を増やすことで下流タスクの性能を向上させるが、これにより深刻なクラス衝突とグラフクラスタリングにおける不公平性が生じる。これらの問題に対処するため、クラスタリング結果とノード表現を共同学習するCluster-aware Graph Contrastive Learning Framework (CueGCL)を提案する。具体的には、教師なしシナリオ向けにパーソナライズされた自己学習(PeST)戦略を設計し、これによりモデルは正確なクラスタレベルのパーソナライズされた情報を捉えることができる。PeSTの利点により、全体的なモデル性能を犠牲にすることなく、クラス衝突と不公平性を軽減する。さらに、クラスタ分割を得るために整合グラフクラスタリング(AGC)を採用し、下流タスクのクラスタリング空間をPeSTにおける空間と整合させることで、より一貫性のあるノード埋め込みを実現する。最後に、モデルの有効性を理論的に実証し、有意に識別可能なクラスタ構造を持つ埋め込み空間が生成されることを示す。広範な実験結果も、CueGCLが5つの異なる規模のベンチマークデータセットで最先端の性能を示すことを明らかにしている。
原文(英語)を表示
Title (EN): CueGCL: Cluster-aware Personalized Self-Training for Unsupervised Graph Contrastive Learning
arXiv:2311.11073v2 Announce Type: replace-cross
Abstract: Recently, graph contrastive learning (GCL) has emerged as one of the optimal solutions for node-level and supervised tasks. However, for structure-related and unsupervised tasks such as graph clustering, current GCL algorithms face difficulties acquiring the necessary cluster-level information, resulting in poor performance. In addition, general unsupervised GCL improves the performance of downstream tasks by increasing the number of negative samples, which leads to severe class collision and unfairness of graph clustering. To address the above issues, we propose a Cluster-aware Graph Contrastive Learning Framework (CueGCL) to jointly learn clustering results and node representations. Specifically, we design a personalized self-training (PeST) strategy for unsupervised scenarios, which enables our model to capture precise cluster-level personalized information. With the benefit of the PeST, we alleviate class collision and unfairness without sacrificing the overall model performance. Furthermore, aligned graph clustering (AGC) is employed to obtain the cluster partition, where we align the clustering space of our downstream task with that in PeST to achieve more consistent node embeddings. Finally, we theoretically demonstrate the effectiveness of our model, showing it yields an embedding space with a significantly discernible cluster structure. Extensive experimental results also show our CueGCL exhibits state-of-the-art performance on five benchmark datasets with different scales.
Published: 2025-09-24 19:00 UTC