Robust Attributed Network Embedding Preserving Community Information
文章信息
[来源]:2022 IEEE 38th International Conference on Data Engineering (ICDE)
[作者]:Yunfei Liu∗, Zhen Liu∗, Xiaodong Feng, Zhongyi Li
内容简介
近年来,涉及图上深度学习的方法如雨后春笋般涌现,其中图卷积网络(GCN)是一项重大进展。GCN可以增强网络嵌入结果的表示能力,对属性网络具有很强的适应性。图自编码器(GAE)和变分图自编码器(VGAE)由GCN编码器和重构解码器组成,用于捕捉高度非线性属性,在属性网络嵌入和下游任务中表现良好。此后,出现了一些更先进的方法,如AGE。然而,这些方法存在两个主要限制。
首先,本质上,这些网络嵌入方法主要关注网络的微观结构,新的嵌入空间中仅保留了每两个节点之间的成对连接或相似性。然而,在这些方法中,对于网络的中等结构描述——社区结构,很大程度上被忽视了。大多数网络由不同的社区组成,这些社区被视为一组节点,社区内部的连接密集,而社区之间的连接稀疏。因此,嵌入表示能否很好地反映社区结构是网络嵌入方法的关键要求,对于属性网络也同样重要。与微观结构的成对连接不同,社区结构在更高的结构层次上对节点表示施加了约束,即同一社区中的节点表示应该比属于不同社区的节点更相似。因此,将社区结构融入网络嵌入可以为解决成对连接的微观结构中数据稀疏性问题提供有效和丰富的信息,并且可以学习更具辨别力的节点表示。
其次,大多数基于深度学习的网络嵌入方法对网络攻击或节点污染非常脆弱。一些研究表明,节点的学习表示对微观结构的微小变化非常敏感,例如添加或删除边或节点,下游任务的性能,如节点分类或链接预测,会显著下降。这通常是过于强调从局部结构中的一阶接近度而忽视社区结构的结果。如果可以考虑社区成员资格的无监督信息来指导网络嵌入,结果将对攻击或节点污染具有鲁棒性。节点的社区归属作为全局结构信息,不会轻易受到网络结构中微小局部变化的影响。
基于上述观察,我们提出了一种名为保留社区信息的属性网络嵌入(AnECI)的鲁棒框架。首先,AnECI使用图卷积编码器通过图卷积操作传播属性信息,学习属性网络的非线性嵌入。其次,与基于成对连接的模型学习不同,我们提出了一种新的模块度函数,通过保留从数据本身学到的底层社区结构作为无监督学习来指导网络嵌入,以提高对局部网络异常或攻击的鲁棒性。此外,与传统基于网络一阶接近度和硬分区的社区结构定义的模块度函数不同,我们针对高阶接近度和重叠社区结构开发了一种新的模块度函数。此外,AnECI使用学习到的节点嵌入向量作为解码器来重构高阶接近度,这也与通常重构一阶邻接矩阵的传统方法不同。在存在轻微攻击或节点污染时,高阶接近度比一阶接近度更稳定,因为在计算两个节点之间的接近度时,它还考虑了更多全局信息。据我们所知,我们的工作是首次尝试将基于高阶接近度的社区模块度结合到网络嵌入中,并通过学习表示重新构建高阶接近度。我们在真实基准数据集上进行了大量实验,包括在干净和受攻击图上的节点分类、异常检测和社区检测任务,结果显示AnECI优于现有的属性网络嵌入方法。
本文主要贡献:
• 我们提出了AnECI,这是一个鲁棒的网络嵌入模型,增强了嵌入对抗性攻击的鲁棒性。据我们所知,这是首次研究这个具有挑战性的任务。
• 不同于传统的模块度函数只关注一阶接近度和基于硬划分的社区结构,我们提出了一种新的模块度函数,适用于高阶接近度和重叠社区结构。
• 使用大量的实验结果证明我们提出的方法在各种下游任务中的有效性。
Attributed Network Embedding preserving Community Information(保留社区信息的属性网络嵌入)
结构总览
• 使用图卷积网络的属性网络编码器。图卷积网络模块作为网络编码器,用于学习每个节点的非线性潜在嵌入。
• 通过高阶模块度函数进行社区保留。为了使节点在嵌入空间中对网络异常或攻击具有更强的鲁棒性,节点的表示应与社区结构相关联。这是通过使用模块度函数进行指导来实现的,假设属于同一社区的节点应具有较高的接近度。
• 高阶网络接近度重构。除了保留社区的中观结构外,学习到的节点嵌入还可以重构高阶成对接近度。

A. 图卷积编码器
本文受到图卷积网络(GCN)的启发,提出通过在网络上平滑传播属性信息和对输入属性进行非线性转换来对属性网络进行编码。它可以缓解节点之间观察到的连接之外的网络稀疏性问题。同时,通过多层非线性转换,捕捉到数据的非线性和属性网络上两种信息模态的复杂交互。具体而言,GCN将卷积操作扩展到频谱域的网络数据中,并通过频谱卷积函数学习一个新的潜在表示:
其中φ(·)是激活函数,如sigmoid和LeakyReLU。和
是第(l+1)个卷积层的相应输入和输出。我们将特征矩阵
作为第一层的输入,即H(0) = X;最后一层的输出是学习到的嵌入矩阵,记为
。
为了使每个节点的嵌入包含社区结构信息,如果我们将嵌入维度h设置为社区数目|C|,我们可以从学到的嵌入矩阵Z中推断出社区成员信息。通常,我们通过softmax映射将学习到的嵌入矩阵Z转换为社区成员概率矩阵P,使得每个元素介于0和1之间,并且每行元素之和为1,表示为:
B. 通过高阶模块度对社区结构进行建模
1)重新审视传统的模块度函数:作为最常用的方法之一,基于模块度最大化的社区检测用于构建社区结构,我们将首先重新审视传统的定义,将其扩展为高阶接近度和重叠社区结构。具体而言,给定一个网络接近度矩阵 A,这在传统方法中就是邻接矩阵,模块度函数定义为:
其中,可以理解为两个节点
&n

AnECI是一个鲁棒的网络嵌入框架,通过图卷积网络学习属性网络的非线性嵌入,并通过高阶模块度函数保留社区结构,提高对网络异常和攻击的抵抗力。这种方法不仅重构高阶接近度,还适用于有重叠社区的网络,通过实验显示在节点分类、异常检测和社区检测任务中表现出优越性能。
最低0.47元/天 解锁文章
1421

被折叠的 条评论
为什么被折叠?



