摘要
之前的对比方法存在一个抽样偏差问题,即负样本很可能与正样本具有相同的语义结构,从而导致性能下降。为了减轻该抽样偏差,本文提出了一种原型图对比学习(PGCL)方法。
具体来说,PGCL通过将语义相似的图聚类到同一组中来对图数据的底层语义结构进行建模,同时鼓励同一图的不同增强的聚类一致性。然后,给定一个正样本,通过从那些与正样本集群不同的集群中提取图来执行负采样,这确保了正样本和负样本之间的语义差异。此外,对于一个正样本,PGCL基于其负样本的原型(聚类中心)与正样本原型之间的距离对它的负样本重新赋予权重,使得那些具有中等原型距离的负样本获得相对较大的权重,以保证正样本与负样本之间的语义差异。这种重新赋予权重策略被证明比均匀抽样更有效。
1 引言
现有的自监督图对比学习方法具有以下局限性:
- 现有的方法主要关注于实例级结构相似性的建模,只保留实例周围的局部相似性,但未能发现整个数据分布中的底层全局结构。但在实践中,大多数情况下,图数据中都存在潜在的全局结构。
- 如图所示1,从整个数据分布中均匀采样负样本可能会导致负样本在语义上与正样本相似。

整个数据集的全局语义结构由PGCL在原型向量(即可训练的聚类中心)中描述。
2 相关工作
基于聚类的对比学习: GraphLoG应用K-means聚类来捕获图的语义结构,但使用K-means可能会导致原型的分配不平衡。与GraphLoG相比,PGCL增加了原型分配必须划分为相同大小的子集的约束条件,并将其表述为最优传输问题。此外,PGCL的目标是通过从与正样本集群不同的集群中采样负样本,并根据其原型距离重新赋权负样本,来解决抽样偏差。
3 准备工作
3.1 问题定义
局部实例结构。 我们将不同图例之间的局部成对相似性称为局部实例结构。在对比学习的范式中,相似的图对的嵌入预计在潜在空间中很接近,而不同的图对应该映射得很远。
仅对局部实例结构进行建模通常不足以发现整个数据集底层的全局语义。我们非常希望捕获数据的全局语义结构,其定义如下:
全局语义结构。 来自现实世界的图结构数据通常可以被组织为各种语义集群。潜在空间中邻近图的嵌入应该体现全局结构,从而反映原始数据的语义模式。
问题设置。 给定一组未标记图 G = { G i } i = 1 N \mathcal{G}=\{G_i\}^N_{i=1} G={ Gi}i=1N,无监督图表示学习的目的是学习每个图 G i ∈ G G_i∈\mathcal{G} Gi∈G的低维向量 z i ∈ R D z_i∈\mathbb{R}^D zi∈RD,这有利于图分类等下游任务。
3.2 GNN
我们将一个图实例表示为 G = ( V , E ) G=(\mathcal{V},\mathcal{E}) G=(V,E),节点集为 V \mathcal{V} V,边集为 E \mathcal{E} E。在第 k k k次迭代时,节点 v v v在第 k k k层的嵌入为:

然后,可以通过使用读出函数聚合所有节点表示来获得图级表示,即:

READOUT表示平均或更复杂的图级池化函数。
3.3 图对比学习

4 PGCL

如图2所示,鼓励对增强视图的表示进行聚类,以具有相同的原型(聚类中心)。
4.1 相关视图的聚类一致性
形式上,考虑一个将图例 G i G_i Gi映射到表示向量 z i ∈ R D z_i∈\mathbb{R}^D zi∈RD的图神经网络 z i = f θ ( G i ) z_i=f_θ(G_i) zi=fθ(Gi

最低0.47元/天 解锁文章
2395





