论文笔记 | Link-Information Augmented Twin Autoencoders for Network Denoising

本文提出了一种名为LATA的新模型，利用链接信息增强、对比去噪和校正策略来检测和去除复杂网络中的虚假链接。LATA在预训练和网络重建两个阶段中应用，尤其适合处理含有噪声链接的网络。通过对比学习和双自编码器框架，LATA在多个真实世界网络数据集上表现出优越的性能，能有效识别并移除虚假链接，提高了网络结构的准确性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章信息

来源：IEEE TRANSACTIONS ON CYBERNETICS

作者：Zhen Liu , Liangguang Pan, and Guanrong Chen , Life Fellow, IEEE

链接：

Link-Information Augmented Twin Autoencoders for Network Denoising | IEEE Journals & Magazine | IEEE Xplored

代码：https://github.com/mostpan/LATA

内容简介

在现实世界中存在各种复杂网络系统，如社交网络、生物网络和物联网。一般来说，它们的内部结构并不像表面看起来那样可靠，可能存在一些虚假关系，可能会对我们对网络结构的基本属性和演化模式的理解产生负面影响。例如，在蛋白质相互作用网络中，由于信息有限，一些检测到的蛋白质相互作用关系可能是不可靠的；在社交网络中，某些用户之间的关注关系可能是虚假的，因为这些关注行为是由在线垃圾邮件发送者或付费欺诈用户故意发起的。因此，研究识别此类网络中的虚假或不可信关系的方法具有重要的理论和实际意义。

由于真实世界网络中同时存在正常关系和不可信或虚假关系，所有网络成员之间的关系本质上是可疑的。这意味着网络中的关系不能作为可靠的先验知识源来指导意图的检测。换句话说，在噪声数据环境中需要对虚假关系进行检测和预处理。为解决这个问题，传统研究使用图模型来表示此类网络系统，并使用基于无监督节点相似性的方法进行分析，例如Adamic-Adar (AA)方法、资源分配 (RA)方法和基于图结构的表示学习方法。然而，这些方法要么只使用图的局部结构特征来识别链接异常，要么在抵抗数据扰动方面缺乏鲁棒性，因此无法令人满意地确保虚假链接检测的准确性。

在本文中，基于图神经网络（GNN），提出了一种名为链接信息增强双自编码器（LATAs）的新的计算模型，用于网络去噪。LATAs能够准确地检测图中的虚假链接，并有效地从包含噪声链接的观测网络中恢复网络。这个新模型是一个两阶段的计算框架，包括：1）预训练阶段和2）网络重建阶段。对于第一阶段，它包含三个关键操作，即：1）链接信息增强（LIA）；2）链接级对比去噪（LCD）；和3）链接信息校正（LIC）。在第二阶段，应用了链接信息增强（LIA）和链接级对比去噪（LCD）来实现网络重构。对六个真实世界网络进行了大量实验，结果表明所提出的模型在性能上优于其他可比较的基准方法。本文还详细分析了所提出模型的其他优点。

本文主要贡献

提出了一种新颖的链接信息增强方法，与传统的随机数据增强相比，能够保持观测网络的结构一致性。同时，引入的新链接信息为观测网络提供了真实的负实例，可以用于半监督模型训练。

从对比学习的角度提出了改进的双自编码器（AE）模型，相比传统的AE模型。通过遵循两个约束条件，即（a) 同质性约束和（b) 多样性约束，该新模型可以在带有噪声链接的观测网络上实现链接级对比去噪。

在所提出的计算框架的第一阶段，进行预训练以最初纠正观测网络中存在的噪声链接。通过这样做，在进行正式的网络重构之前，可以显著提高观测网络链接的可靠性。这是在过程的第二阶段进行的。

任务描述

首先，假设存在一个真实链接的基准网络或者一个含有真实链接的网络，表示为图 $G=\left(V, E_{t}\right)$ ，其中 V 是顶点的集合， $E_t$ 是顶点之间真实存在的链接的集合。本文只考虑无向图。对于一个观察到的网络，与基准网络相比，图中的一些链接可能会被错误地添加，这些链接也被称为虚假链接或者噪声链接，即非存在的链接被标记为存在（假阳性）。一个包含噪声链接的观察网络被表示为 $G^{o}=(V, E), E \supseteq E_{t}$ 。值得注意的是，给定一个观察网络 $G^o$ ，链接没有 "真实" 或者 "虚假" 的标签，也无法确定 E 中真实链接或者虚假链接的确切数量，因为它们共存。在实践中， $E_t$ 只能用于模型验证，而不能用于指导模型训练。本文的目标是设计一个模型 M，尽可能准确地识别存在于 E 中的虚假链接，并将其从 $G^o$ 中移除，从而得到一个去噪的图 $G^{*}=\left(V, E_{t}^{*}\right)$ ，使得 $E_{t}^{*} \approx E_{t}.$

Link-Information Augmented Twin Autoencoders（LATA 链接信息增强的双自编码器）

模型架构

本模型与传统的架构（例如图卷积神经网络GCN和图注意力网络GAT）不同，所提出的模型是基于对比学习的两阶段双自编码器框架，包含三个关键操作。

1）链接信息增强（LIA）：在观察网络中，真实的链接与未知的噪声链接（假阳性样本）混合在一起。直接使用观察网络中的不可信链接标签进行监督学习可能会导致模型训练的错误，因此可能是不可行的。在数据增强阶段，LIA的作用是向观察网络添加一些不存在的边，按照不同的拓扑特征作为基准，以增强图结构学习的可靠性。

2）链接级对比去噪（LCD）：为了提高鲁棒性，通过应用对比学习构建参数共享的双自编码器，以实现LCD的效果。

3）链接信息校正（LIC）：引入预训练策略来实现LIC。发现与正常链接相比，大多数虚假链接具有更高的训练损失。因此，提出了一个独立的LIC模块，能够以较低的计算成本纠正一些虚假链接。

整个计算框架集成了上述操作，如下图所示，具有两个阶段。

1）预训练阶段：该阶段的目标[(a)]是最初纠正观察网络 $G^o$ 中部分噪声链接。通过对 $G^o$ 进行LIA操作，可以得到两个扰动图。然后，采用具有共享参数的并行双自编码器来实现LCD。最后，通过LIC的操作将观察网络去噪。

2）网络重建阶段：该阶段的目标[(b)]是恢复地面真实网络。该网络重建阶段以已校正的可观察图作为输入，与预训练阶段相比，具有简化的工作流程，仅需要进行LIA和LCD的操作。

与其他GNN架构相比，使用双自编码器具有以下优势。

1）方便处理不同的数据增强。

2）对于对比去噪有更直观的解释。

3）方便设计对比损失。

A. 链接信息增强

由于观察到的网络中的链接既包含真实链接又包含错误链接，它们不能简单地用作模型训练的基准。为解决这个问题，在观察到的网络中有意添加了一部分噪声链接，这些链接被标记为已知的错误链接，用于后续模型学习。这个过程被称为图数据增强。本文提出了一种基于结构一致性概念的新型数据增强策略。与随机增强相比，符合结构一致性的增强可以保持图的基本拓扑特征不变或者只发生轻微改变。

定义1（结构一致性）：假设图G的结构参数θ服从统计分布D(θ|G)，如果通过添加一部分链接来扰动图，得到的扰动图G满足 $\operatorname{KL}(D(\theta \mid \widetilde{G}) \| D(\theta \mid G))<\operatorname{KL}(D(\theta \mid \bar{G}) \| D(\theta \mid G))$ 。这里，KL(·)是Kullback-Leibler散度函数，G是任意具有相同随机链接添加比例的扰动图。受到对比学习思想的启发，将生成两个独特的噪声网络，每个网络都针对一个结构参数，以确保观察到的网络与生成的噪声网络之间的结构一致性。这里考虑了两个结构参数，包括：1）度数比；2）成对节点之间的归一化CN，定义如下：

$\begin{aligned} s_{\operatorname{deg}}(i, j) & =\frac{\min (|N(i)|,|N(j)|)}{\max (|N(i)|,|N(j)|)} \\ s_{c n}(i, j) & =\frac{|N(i) \cap N(j)|}{|V|} \end{aligned}$

其中，N(i)是节点i的邻居集合，|N(i)|是节点i的度数。显然， $s_{\mathrm{deg}}(i, j)=s_{\mathrm{deg}}(j, i)$ 和 $s_{\mathrm{cn}}(i, j)=s_{\mathrm{cn}}(j, i)$ 成立。为了避免在这两个结构参数上破坏观察到的网络 $G^o$ 的基本结构，设计了算法1来适当控制链接的添加。

B. 链接级对比去噪

直观上，当具有自监督学习特性时，自动编码器（AE）适用于网络重构。与传统的AE框架不同，使用两个并行的编码器和解码器共同处理双重扰动的观察网络，由邻接矩阵 $\tilde{A} \in \mathbb{R}^{|V| \times|V|}$ 和 $\hat{A} \in \mathbb{R}^{|V| \times|V|}$ 表示。为了更好地处理大型图形，使用多层感知器（MLPs）作为编码器和解码器函数，而不是更复杂的图神经网络（GNNs）。值得注意的是，尽管邻接矩阵 $\tilde{A}$ 和 $\hat{A}$ 携带了不同的噪声链接信息，但两个AE共享相同的权重参数，以便提取两个输入网络的公共部分的潜在特征并过滤噪声部分。对于第k层的两个扰动矩阵的第i行嵌入向量 $\overrightarrow{\tilde{h}_{i}^{(k)}}$ 和 $\overrightarrow{\hat{h}_{i}^{(k)}}$ ，其中 $\overrightarrow{\tilde{h}_{i}^{(0)}}=\tilde{A}[i,:] \in \mathbb{R}^{|V|}$ 和 $\overrightarrow{\hat{h}_{i}^{(0)}}=\hat{A}[i,:] \in \mathbb{R}^{|V|}$ ，编码器函数定义如下：

$\begin{array}{l} \overrightarrow{\tilde{h}_{i}^{(k)}}=\operatorname{MLP}\left(\overrightarrow{\tilde{h}_{i}^{(k-1)}}, W^{(k)}, b^{(k)}\right)=\sigma\left(\overrightarrow{\tilde{h}_{i}^{(k-1)}} W^{(k)}+b^{(k)}\right) \\ \overrightarrow{\hat{h}}_{i}^{(k)}=\operatorname{MLP}\left(\overrightarrow{\hat{h}_{i}^{(k-1)}}, W^{(k)}, b^{(k)}\right)=\sigma\left(\overrightarrow{\hat{h}_{i}^{(k-1)}} W^{(k)}+b^{(k)}\right) \end{array}$

其中， $W^{(k)} \in \mathbb{R}^{P \times Q}, Q<P \leq|V|$ ， $b^{(k)} \in \mathbb{R}^{Q}$ 是共享的参数矩阵和偏置向量，σ(.)是sigmoid激活函数。经过K层编码后，被表示为 $\tilde{H}=\left(\overrightarrow{\tilde{h}_{1}^{(k)}} ; \overrightarrow{\tilde{h}_{2}^{(k)}} ; \cdots ; \overrightarrow{\tilde{h}_{|V|}^{(k)}}\right) \in \mathbb{R}^{|V| \times Q}$ 和 $\hat{H}=\left(\overrightarrow{\hat{h}_{1}^{(k)}} ; \overrightarrow{\hat{h}_{2}^{(k)}} ; \cdots ; \overrightarrow{\hat{h}_{|V|}^{(k)}}\right) \in \mathbb{R}^{|V| \times Q}$ ，然后它们进一步传递给另一组k个解码器层。对于共享的参数矩阵 $W^{(k)} \in \mathbb{R}^{P \times Q}$ ，其维度满足不等式P < Q ≤ |V|。最终得到两个生成矩阵 $\tilde{A}^{\prime} \in \mathbb{R}^{|V| \times|V|}$ 和 $\hat{A}^{\prime} \in \mathbb{R}^{|V| \times|V|}$ 。

1）对比损失：编码后的矩阵 $\tilde{H}$ 和 $\hat{H}$ 也被称为嵌入矩阵，每一行表示相应节点的特征向量。为了去噪添加的扰动链接并保留观察网络 $G^o$ 中的原始链接，我们引入了两个约束条件，即：1) 同质性约束和2) 多样性约束，定义如下。

定义2（同质性约束）：给定两个嵌入矩阵 $\tilde{H}$ 和 $\hat{H}$ ，对于相同节点 i 上的 $\overrightarrow{\tilde{h}_{i}^{(k)}}$ 和 $\overrightarrow{\hat{h}_{i}^{(k)}}$ ，满足条件 $1-l\left(\overrightarrow{\tilde{h}_{i}^{(k)}}, \overrightarrow{\hat{h}_{i}^{(k)}}\right)<\varepsilon$ ，其中 l(·) 是用于估计 $\overrightarrow{\tilde{h}_{i}^{(k)}}$ 和 $\overrightarrow{\hat{h}_{i}^{(k)}}$ 相似度的似然函数，ε 是一个非常小的正值。

定义3（多样性约束）：给定两个嵌入矩阵 $\tilde{H}$ 和 $\hat{H}$ ，对于节点 i 和 j 上的 $\overrightarrow{\tilde{h}_{i}^{(k)}}$ 和 $\overrightarrow{\hat{h}_{j}^{(k)}}$ ，其中 i ≠ j，满足条件 $l\left(\overrightarrow{\tilde{h}_{i}^{(k)}}, \overrightarrow{\hat{h}_{j}^{(k)}}\right)<\varepsilon .$ 。

由于 $\tilde{H}$ 和 $\hat{H}$ 是从相同的邻接矩阵 A 中生成的，但经过不同的扰动，因此嵌入特征向量 $\overrightarrow{\tilde{h}_{i}^{(k)}}$ 和 $\overrightarrow{\hat{h}_{i}^{(k)}}$ 分别在 $\tilde{H}$ 和 $\hat{H}$ 中应尽可能保持相似，以满足同质性约束。另一方面，为了确保多样性约束，特征向量 $\overrightarrow{\tilde{h}_{i}^{(k)}}$ 和 $\overrightarrow{\hat{h}_{j}^{(k)}}$ （其中 i ≠ j）在 $\tilde{E}$ 和 $\hat{E}$ 中应尽可能不相似。

为了计算嵌入特征向量的上述约束，需要实例化特征向量之间的相似性。首先，使用投影头操作 H(·) 将嵌入特征向量 $\overrightarrow{\tilde{h}_{i}^{(k)}}$ 和 $\overrightarrow{\hat{h}_{j}^{(k)}}$ 分别映射到新的潜空间中的 $\overrightarrow{\tilde{z}_{i}}$ 和 $\overrightarrow{\hat{z}_{i}}$ ，确保 $\left\|\overrightarrow{\vec{z}_{i}}\right\|=1$ 和 $\left\|\overrightarrow{\vec{z}_{j}}\right\|=1$ 。然后，令 $\operatorname{sim}\left(\overrightarrow{\tilde{z}}_{i}, \overrightarrow{\hat{z}}_{j}\right)=\overrightarrow{\tilde{z}}_{i}\overrightarrow{\hat{z}}_{j}^T$ 表示 $\overrightarrow{\tilde{z}_{i}}$ 和 $\overrightarrow{\hat{z}_{j}}$ 的点积，也称为余弦相似度。节点 i 和 j 在不同的嵌入空间中被视为相似的概率可以形式化表示为

$l\left(\overrightarrow{\tilde{z}_{i}}, \overrightarrow{\hat{z}_{j}}\right)=\frac{\exp \left(\operatorname{sim}\left(\overrightarrow{\tilde{z}_{i}}, \overrightarrow{\hat{z}_{j}}\right) / \tau\right)}{\sum_{k=1}^{|V|} \exp \left(\operatorname{sim}\left(\overrightarrow{\tilde{z}_{i}}, \overrightarrow{\hat{z}_{k}}\right) / \tau\right)}$

其中，τ 是用于值平滑的温度常数。根据经验测试，由于该模型对于 τ 不敏感，因此将 τ 简单地设置为 1。需要注意的是，当 i ≠ j 时， $l\left(\overrightarrow{\tilde{z}_{i}}, \overrightarrow{\hat{z}_{j}}\right)$ 不等于 $l\left(\overrightarrow{\hat{z}_{j}}, \overrightarrow{\tilde{z}_{i}}\right)$ ，但是 $l\left(\overrightarrow{\tilde{z}_{i}}, \overrightarrow{\hat{z}_{i}}\right)$ 等于 $l\left(\overrightarrow{\hat{z}_{i}}, \overrightarrow{\tilde{z}_{i}}\right)$ 。因此，节点对之间的最终对比损失函数可以表示为：

$\begin{aligned} \mathcal{L}_{C}= & -\sum_{i \neq j}\left[\log \left(1-l\left(\overrightarrow{\tilde{z}_{i}}, \overrightarrow{\hat{z}_{j}}\right)\right)+\log \left(1-l\left(\overrightarrow{\hat{z}_{j}}, \overrightarrow{\tilde{z}_{i}}\right)\right)\right] \\ & -\sum_{i=j} \log l\left(\overrightarrow{\tilde{z}_{i}}, \overrightarrow{\hat{z}_{j}}\right) . \end{aligned}$

2）重构损失：由于 $\tilde{A}$ 和 $\hat{A}$ 代表了观测网络 $G^o$ 的不同重构结果，我们使用权重参数λ来结合这两个矩阵，得到最终的重构矩阵A。

$A^{\prime}=\lambda \tilde{A}^{\prime}+(1-\lambda) \hat{A}^{\prime}$

其中，λ是可学习的参数。对于传统的AE模型，损失函数L(·)用于计算输入向量和其对应重构向量之间的交叉熵。然而，由于观测网络的邻接矩阵A包含了真实链接和错误链接的信息，简单地采用AE的损失函数可能会导致误导性训练。因此，传统的损失函数被修改为：

$\mathcal{L}_{R_{1}}=-\sum_{i=1}^{|V|} \sum_{j=1}^{|V|}\left(\frac{1}{N^{+}} \beta A_{i j} \log A_{i j}^{\prime}+\frac{1}{N^{-}}\left(1-A_{i j}\right) \log \left(1-A_{i j}^{\prime}\right)\right)$

其中，N+和N-表示邻接矩阵A中的“正样本”和增强的负样本的数量，β是一个衰减因子，随着模型训练的轮数增加而逐渐减小，以减弱不可靠的“正样本”的影响，β的定义为：

$\beta=\max \left(\beta_{\min }, 1-E_{c} / E_{t}^{3 / 2}\right)$

其中， $E_c$ 和 $E_t$ 分别是模型训练的当前轮数和总轮数，常数 $\beta_{\min }$ ∈(0, 1)取决于网络。需要注意的是，只有在第一阶段使用公式(9)来计算β，其值在第二阶段被固定为 $\beta_{\min }$ 。另一方面，假设重构矩阵 $\tilde{A}^{\prime}$ 和 $\hat{A}^{\prime}$ 尽可能相似，因为它们源自同一源图。因此，定义二次损失函数如下：

$\mathcal{L}_{R_{2}}=\frac{1}{N^{-}} \sum_{i=1}^{|V|} \sum_{j=1}^{|V|} A_{i j}\left(\tilde{A}_{i j}^{\prime}-\hat{A}_{i j}^{\prime}\right)^{2} .$

最后，对于端到端训练，模型的整体损失函数定义如下：

$\mathcal{L}=\mathcal{L}_{R_{1}}+\mathcal{L}_{R_{2}}+\alpha \mathcal{L}_{C}+\gamma \mathcal{L}_{\text {reg }}$

其中， $\mathcal{L}_{\text {reg }}$ 和γ表示正则化项及其参数，α是对比损失的权重参数。对比去噪的过程总结如下，详见算法2：

C 链路信息纠正

通过模型训练，基于上述观察，我们提出了LIC操作，即在具有噪声链接的各种网络上实施算法2。经过实证验证和扩展分析，证明了该操作的有效性（详见第V节）。尽管在模型训练的早期阶段，真实链接和噪声链接的训练损失相似，但在经过多个训练时期后，经测试的网络中发现噪声链接的交叉熵损失往往高于真实链接。图2展示了经过测试的网络损失分布的明显变化。这一发现为纠正噪声链接提供了可能性。首先，使用算法2对模型进行迭代训练。在达到给定的训练时期后，计算所有“正样本”（即邻接矩阵A和重构矩阵A'之间的“正样本”）的交叉熵损失，以获得每个“正样本”的损失值。然后，对“正样本”的损失值进行k-means（k=2）聚类，以检测具有较高损失的样本，并将这些样本从现有的链接纠正为不存在的链接，即在A中将其从“正样本”变为“负样本”。从而获得一个新纠正的邻接矩阵A*，可以用于第二阶段的训练。LIC的详细过程总结如算法3所示。

实验结果

首先，在六个真实数据集上进行了实验，比较了所提出的模型与基准方法，在观察到的网络中添加的虚假链接的比例设置为50%。实验结果总结在下表中。结果表明，所提出的LATA模型在所有六个数据集上表现优于竞争方法。特别是与第二优的方法相比，LATA在FWFW上的AUC提升了3.56%，在CE上提升了2.52%，在USair上提升了1.2%，在BlogCatalog上提升了1.28%，在DBLP上提升了2.06%，在Pubmed上提升了2.64%。令人惊讶的是，从结果中观察到，像RA和LP这样的基于相似性的方法表现甚至优于一些较新提出的模型，如NE，而基于GNNs的方法，如node2vec和G2G，在检测噪声链接方面通常表现较差。

为了进一步评估新模型在包含不同比例虚假链接的观察网络中的有效性，实验在六个网络上进行，随机添加不同比例的噪声链接，从50%到90%。实验结果如图3所示。同样，所提出的模型在任何比例的噪声链接添加下始终优于其他基准方法，表明它具有防止不断增加的噪声链接扰动的鲁棒性。需要注意的是，由于NE在BlogCatalog、DBLP和Pubmed网络上的表现非常差，这三个网络的实验结果没有在图3中显示出来。

总结

在本文中，我们提出了一种新的计算框架，即LATA，用于检测静态图中的噪声链接。为了解决输入观察图中缺乏可靠标签的模型训练问题，我们提出了一种通过采样不存在的链接（负实例）来增强网络数据的方法，遵循图的结构一致性。与简单的随机采样相比，我们提出的方法对拓扑属性的影响较小，从而确保了从增强的图数据中进行无偏模型训练。为了进一步提高模型对图中存在的噪声数据的鲁棒性，我们还提出了具有共享学习参数的双重自动编码器。基于对比学习的思想，对比损失函数和重构损失函数确保了模型能够处理基于链接的网络去噪。同时，新的计算框架包含两个阶段，包括预训练阶段和正式网络重建阶段。在预训练阶段，我们特别提出了一种链接修正方法，可以将虚假链接纠正为不存在的链接，并具有相当高的命中率。反过来，更新后的可观察网络中虚假链接较少，也可能提高网络重建的准确性。由于采用了双重自动编码器的两阶段结构，与其他具有更简单结构的GNN相比，所提出的方法在模型训练方面需要更多的时间。我们在六个真实世界网络上进行了大量实验，表明我们的模型能够比最先进的基线方法更准确地检测噪声链接。对我们模型中使用的关键步骤的分析以及对Karate网络上链接去噪的案例研究进一步证明了新模型的优越性。