论文《High-Quality Temporal Link Prediction for Weighted Dynamic Graphs via Inductive Embedding Aggregation》阅读
for Weighted Dynamic Graphs via Inductive
Embedding Aggregation》阅读)
论文概况
本文是2023年IEEE Trans. Knowl. Data Eng上的一篇论文,该篇文章聚焦于使用归纳动态嵌入聚合 (IDEA) 方法来解决加权动态图链路预测问题。
Introduction
作者提出了几个问题
现有的大多数TLP方法要么不适用于加权图上的TLP,要么无法解决值域宽问题、稀疏性问题和节点集的变化。
- 不适用于加权 TLP:大多数现有的 TLP 方法都是为无加权图设计的。现有的与任务无关的嵌入技术通常将 TLP 视为二元边分类问题。仅输出边出现在下一个快照中的概率,但不能预测边的权重。
- 宽值域问题:加权图中的边权重可能具有很宽的取值范围,如 [0, 2000],误差最小化目标仅对较大的边权重敏感,但可能无法区分较小边权重之间的尺度差异。从系统资源预分配的角度看,由于边权重范围太广而无法区分 {At, A˜ t} 之间的权重规模差异,可能会导致 (i) 分配比链路实际需求多得多的资源或 (ii) 没有为链路分配足够的资源的异常。
- 稀疏性问题:大多数 TLP 方法使用邻接矩阵 At 表示每个图快照 Gt 的拓扑,由于现有方法的误差最小化目标仅对大权重敏感,因此它也可能无法区分 At 中零权重和小权重之间的差异。对于资源预分配,无法区分稀疏 At 中的小权重和零权重可能导致以下异常:(i) 为不存在的链接分配资源或 (ii) 不为现有链接分配资源。
- 节点集的变化:大多数传统方法假设动态图中的快照基于固定维度的映射方案共享一个公共节点集(具有固定数量的节点 N)。
因此,作者引入了一种归纳动态嵌入聚合 (IDEA) 方法来生成高质量的预测快照,解决了宽值范围和稀疏性问题。从技术上讲,IDEA 遵循一种新颖的归纳动态图嵌入方案,该方案基于 (i) 误差最小化、(ii) GAN 和 (iii) 尺度差异最小化的混合训练损失。 除了受高分辨率 VFP 启发的 GAN 之外,尺度差异最小化目标还可以通过使用对数 log10(·) 来测量和最小化边权重之间的尺度差异来帮助解决宽值域和稀疏性问题。直观地讲,(1, 2) 之间的尺度差异大于 (1990, 2000) 之间的尺度差异,因此我们有 | log10(1/2)| > | log10(1990/2000)|。
在计算机视觉中,视频帧预测 (VFP) 具有与 TLP 类似的目标,它使用历史帧预测下一帧图像,如图 1 所示。误差最小化也是一些 VFP 方法的经典目标,但它们的预测结果通常分辨率较低,例如图 1 中间块左侧的模糊图像。最近的工作已成功通过对抗性学习(例如生成对抗网络 (GAN) [19])得出接近真实值的高分辨率预测帧(参见图 1 中间块的右侧)。高分辨率 VFP 意味着 GAN可以帮助最小化图像中像素值之间的尺度差异,这也可能有助于区分邻接矩阵中权重的尺度差异。
在 IDEA 模型中,引入了一种新的堆叠结构(称为 GR 单元),其中包含 GNN、RNN 和注意节点对齐单元。一方面,GNN 和 RNN 的堆叠结构将多层 GNN(在静态图上)的消息传递推广到连续快照,从而可以捕获动态图的时间高阶接近度。另一方面,注意节点对齐单元使 RNN 能够处理连续时间步骤中不同节点数量的隐藏状态。结合 GNN [27] 的归纳性,节点对齐单元使 IDEA 能够处理节点集的变化。
此外,作者还开发了一个自适应嵌入聚合模块来导出加权预测结果。与现有的固定维度映射方案方法(见图 2(a))相比,嵌入聚合模块通过归纳动态嵌入的聚合生成邻接矩阵 A˜ τ+1 中的每个(加权)元素,如图 2(b) 所示。在这种情况下,IDEA 可以生成相对于不同节点数的(加权)邻接矩阵,从而可以处理节点集的变化。
论文的主要贡献:
- 我们引入了一种新颖的 IDEA 方法,该方法可以解决加权图上 TLP 的宽值域问题、稀疏性问题和节点集变化,该方法基于一些原始设计,例如堆叠 GR 单元、自适应嵌入聚合和混合优化尺度差异最小化损失。
- 从通用角度来看,我们根据节点集的变化将 TLP 分为三个不同难度的级别。大多数现有方法只能在某些级别解决 TLP,而我们的 IDEA 方法可以解决所有情况。
- 除了传统的基于误差的质量指标(例如 RMSE 和 MAE)之外,我们还引入了两个指标:平均对数尺度差异和不匹配率,以评估 TLP 方法解决宽值域和稀疏性问题的能力。
- 在一组动态图基准上的实验表明,IDEA 可以有效地为具有固定和非固定节点集的加权图得出高质量的预测结果。
RELATED WORK
在过去的几年中,基于不同的技术提出了一系列 TLP 方法。秦等人 [26] 回顾了现有的代表性 TLP 方法。如图 3 所示,我们根据学习范式将现有方法分为两类,即 (i) 在线训练和推理 (OTI) 以及 (ii) 离线训练和在线泛化 (OTOG)。
- OTI 方法:OTI 方法需要随着系统的发展不断进行模型优化(见图 3(a))。当进入新的时间步骤(即滑动历史快照窗口)时,它们需要先通过一些优化过程更新模型参数,然后才能得出预测结果。典型的 OTI 方法基于折叠图模型 [33]。
它们首先通过 MF 过程(例如 SVD)在由历史快照的线性组合构建的综合静态快照(又称折叠图)上学习动态图的潜在嵌入。预测结果通过 MF 的逆过程得出,即从学习到的嵌入重建邻接矩阵 ˜ Aτ+1。CRJMF [8] 进一步将二阶邻近度和节点属性合并到折叠图中。为了避免启发式的折叠图组合,GrNMF [16] 和 DeepEye [1] 直接表征不断发展的拓扑结构,并使用非负矩阵分解来学习动态嵌入。TMF [43] 和 LIST [44] 将时间拓扑建模为时间函数,并通过 MF 框架学习动态嵌入(由时间索引参数化)。然而,上述方法通常通过误差最小化目标进行优化,并且仅考虑无权图上的 TLP。尽管其中一些方法可以预测加权图,但它们只能得出低质量快照,如第一节所述。
M2DNE [15] 和 HR2Vec [38] 是独立于任务的动态嵌入方法,分别用于捕获多范围动态和时间结构身份。由于 M2DNE 和 HR2Vec 仅探索无权图拓扑并仍然遵循传导嵌入查找方案,因此它们无法支持具有非固定节点集的加权 TLP。DNE [7] 将基于 skip-gram 的静态嵌入扩展到动态图,动态图逐步派生新节点的嵌入并更新旧节点的嵌入。虽然 DNE 可以处理节点集的变化,但它是为给定新节点的未来拓扑的任务而设计的(例如,动态节点分类),因此不适用于预测未来拓扑的 TLP。 - OTOG 方法:OTOG 方法遵循监督学习范式(见图 3(b)),将动态图的连续快照分为训练集 Γ 和测试集 Γ∊ 。他们首先以离线方式在 Γ 上训练 TLP 模型,然后将模型推广到 Γ∊ 以用于模型参数固定的在线 TLP。
E-LSTM-D [4]、DDNE [14] 和 dyngraph2vec [10] 是 OTOG 方法,它们使用 RNN 基于图 2(a)中的固定维映射方案捕获动态图的演变模式。EvolveGCN [24] 是一种依赖于任务的动态图嵌入方法,它使用 RNN 来演变 GNN 的模型参数。由于上述方法仅通过误差最小化损失进行训练,因此它们只能为具有固定节点集的 TLP 得出低质量的预测结果。除了使用 GNN 和 RNN,GCN-GAN [13] 还使用 GAN 来优化预测结果。NetGAN [42] 扩展了 GCN-GAN,使其包含动态图的基于 MF 的信息性特征。尽管它们对加权图有效,但它们依赖于图 2(a) 中的第二个固定维度映射方案,该方案无法处理节点集的变化,并且空间复杂度很高,为 O(N3d),如第一节所述。
DynamicTriad [46] 和 DynGraphGAN [40] 是与下游任务无关、基于自身无监督训练损失的任务独立动态嵌入方法,只能支持具有固定节点集的 TLP。DyRep [35] 和 TGAT [41] 是归纳的任务独立嵌入方法,而 CAW [39] 是用于 TLP 的归纳的任务相关嵌入框架。DyRep、TGAT 和 CAW 的归纳性使它们能够应对节点集的变化。然而,它们的推理程序(例如 CAW 的时间随机游走)仅针对无加权图设计,无法捕捉加权拓扑。由于它们仅考虑无加权图上的 TLP,将其视为二元边分类任务,因此它们也不适用于加权图的预测。基于归纳 GNN 和注意力机制,DySAT [32] 和 STGSN [21] 是任务相关的嵌入方法,可以处理节点集的变化,但由于以下原因,如何应用它们来支持高质量的加权 TLP 仍不清楚:缺乏对端到端解码器和相关任务损失的明确定义。
相比之下,作者的 IDEA 方法可以有效解决加权动态图上具有挑战性的 TLP 的宽值域问题、稀疏性问题和节点集变化问题。
PROBLEM STATEMENTS
从通用的角度来看,我们将TLP分为三个级别,每个级别的难度不同。
- (TLP Level-1)在 Level-1 中,假设所有快照共享一个公共节点集 V,即 V1 = ··· = VT = V。也就是说,没有节点的添加和删除。
- (TLP Level-2)在 Level-2 中,我们假设不同的快照可以有不同的节点集,即 ∃t ∄= s s.t. Vt ∄= Vs。具体来说,我们只关注先前快照中观察到的节点之间的加权边的预测。
- (TLP Level-3)Level-3 对节点集的假设与 Level-2 相同。主要区别在于 Level-3 不仅应预测 V∪(τ−l:τ) 中节点之间的边,还应使用 {Aτ τ−l, Xτ τ−l, Xτ+1} 的先验知识预测 (i) 先前观察到的节点与未观察到的节点之间的边或 (ii) 两个未观察到的节点之间的边。
现有的 TLP 方法通常基于第 1 级的设置,并假设节点集固定。其中一些方法可以推广到第 2 级,方法是使用“大”邻接矩阵 At(由所有关联节点集的并集引起)来表示每个快照 Gt 的拓扑结构,其中可能有许多孤立节点没有连接到其他节点的边。这种幼稚的策略可能会带来不必要的高空间复杂度。
此外,大多数现有方法无法解决第 3 级的 TLP。只有少数归纳动态嵌入方法 可以解决无加权图的第 3 级,但不适用于加权图的 TLP。相比之下, IDEA 方法可以预测所有三个级别的加权快照。
基于第一节的讨论,我们给出了宽值域问题、稀疏性问题和高质量 TLP 的定性定义。
- (宽值域问题)如果一种方法的预测结果 A˜ τ+1 不能拟合真实值 Aτ+1 中的大多数小权重,并且由于边权重的值域较宽而导致 {Aτ+1, A˜ τ+1} 之间的尺度差异,则该方法无法解决宽值域问题,例如,A˜ τ+1 中大多数元素相对于 Aτ+1 中的小权重具有非常接近的值。
- (稀疏性问题)如果某个方法的预测结果 A˜ τ+1 无法区分真实值 Aτ+1 中的大多数小权重和零权重,例如 (Aτ+1)ij = 0 但 (A˜ τ+1)ij > 0,则我们定义该方法无法解决稀疏性问题。
- (高质量 TLP)如果相应方法可以解决宽值范围和稀疏性问题,则我们定义 TLP 方法的预测结果 A˜ τ+1 是高质量的。
Method
A模型组成
受到带有 GAN 的高分辨率 VFP的启发,将其引入了 IDEA,使用 (i) 归纳嵌入聚合方案和 (ii) 对抗学习 (即 GAN)、误差最小化和尺度差异最小化的混合目标,为加权图生成高质量的预测结果。
图 4 概述了模型架构,它遵循 GAN 框架,包括生成器 G 和鉴别器 D。
不同动态图中边权重的取值范围可能不同,例如 [0, 250] 和 [0, 2000]。令 me 为动态图所有快照中的最大边权重。**为了确保 IDEA 可以应用于各种场景,在将每个邻接矩阵 At 输入模型之前,我们首先通过 (At)ij ← (At)ij/me 将每个元素 (At)ij 规范化到 [0, 1] 范围内。**我们还确保每个预测邻接矩阵 A˜ t 中边权重的取值范围为 [0, 1]。可以通过设置 (A˜ t)ij ← me · (A˜ t)ij 进一步将 A˜ t 恢复到其原始值范围。
1)生成器 G
给定前 l 个快照的拓扑结构、节点属性和节点对齐关系以及下一个快照的节点属性(分别由 Aτ τ−l、Xτ+1 τ−l 和 Bτ τ−l 描述),生成器 G 不断输出相对于快照 Gτ+1 τ−l+1 的预测结果,这些结果由 A˜ τ+1 τ−l+1 描述。为简单起见,我们将 G 表示为 A˜ τ+1 τ−l+1 = G(Aτ τ−l, Xτ+1 τ−l , Bτ τ−l; δG),其中 δG 为需要优化的模型参数集。
如图 4 所示,G 由(a)特征提取、(b)嵌入推导和(c)嵌入聚合模块组成。
(a) 特征提取。
特征提取模块导出保留拓扑结构关键属性和每个单个快照属性的节点特征。
如第三节所定义,我们考虑具有固定节点属性的动态图上的 TLP。如果可用,可以从表示系统中每个节点的唯一身份的信息(例如 IP 地址)中提取节点属性。对于每个快照,当节点属性可用时,它们可以用属性矩阵 X’t ∈ ∉Nt×La 来描述,其中 La 为特征维数。
如果节点属性不可用,我们尝试从图的时间依赖性中为每个快照 Gt 提取附加属性 Pt ∈ ∉Nt×Lp,这被定义为具有维数 Lp 的时间嵌入。给定一个动态图 G = (G1,…, GT ),可以按首次观察到的时间重新排列 T t=1 Vt 中的所有节点,并将重新排列的节点表示为序列 S = (vs(0), vs(1),…),其中 s(·) 将 S 中的新索引映射到原始节点索引。让 pt i 成为节点 vt i 在 S 中的索引。受到注意力机制中位置嵌入的启发 [36],我们定义嵌入 (Pt)i,: w.r.t. vt i 为
最后,我们分别让 Xt = [X‘t, Pt] 和 Xt = Pt 成为 IDEA 在有和没有可用节点属性的情况下的属性输入。
如图 4 所示,提取的节点属性 Xτ+1 τ−l 被输入到属性约简编码器 (ARE) 中,ARE 是一个 MLP,它将 Xτ+1 τ−l 映射到约简表示 Zτ+1 τ−l ,其中 Zt ∈ ∉Nt×Lr ,Lr 为约简维数。令 Z(k−1) t 和 Z(k) t 分别为第 k 个 ARE 层相对于快照 Gt 的输入和输出,其中 Z(0) t = Xt。
第 k 个 ARE 层定义为
其中 {W(k−1) ARE , b(k−1) ARE } 是可训练参数。ARE 最终输出相对于每个输入 Xt 的简化属性 Zt。
在传统的 GAN 框架 [9] 中,生成器 G 试图从预定义的噪声分布中生成可信样本。效仿 GAN,我们引入结构随机投影 (SRP) 单元,通过对 Gt 的一些结构特征进行随机投影 [2],为每个快照 Gt 导出噪声输入 Rt,由此导出的 Rt 可以保留 Gt 的关键结构属性。作为示例演示,我们探索社区结构的属性。具体而言,我们首先从邻接矩阵 At 导出模块度矩阵 Qt ∈ ∉Nt×Nt,该矩阵对 Gt 的社区结构进行编码。Qt 中的每个元素定义为
其中 dt i = j (At)ij 是节点 vt i 的度;e = 0.5 · i dt i 是边权重之和。Qt 广泛应用于社区检测的一些优化问题 [5],[27],社区检测是一项将节点集划分为几个组(又称社区)(节点分类)的任务,这些组与其他组之间存在着密集的链接。特别地,Qt 是 At 的重新加权。从图割的角度来看,具有较大值的 (Qt)ij 表示相应的边 ((vt i , vt j ), w) 更有可能保留在某个社区中(但不会被社区划分所切断)。因此,Qt 编码了 Gt 中社区结构的关键属性。社区结构为 TLP 提供了补充信息,其中节点划分到同一个社区的对 (vt i , vt j )(具有较大的 (Qt)ij 值)更有可能连接 [25],即 ((vt i , vt j ), w) ∈ Et,权重 w 较大。请注意,Qt 是一个 Nt 维方阵,但 Nt(即节点数)在 t 上可能不固定,如第三节所定义。我们通过以下方法将 Qt 随机投影到由 Rt ∈ ∉Nt×Ln 描述的潜在空间中(即具有固定维数 Ln 的 GAN 噪声输入)。
其中 Θ ∈ ∉Nt×Ln 是一个随机矩阵,Θir ∼ N (0, L−0.5 n )。特别地,(7) 是 Qt 的高斯随机投影,这是一种有效的降维技术,可以在理论上保证保留原始特征的属性 [2]。它还可以扩展到包括其他结构特征(例如,motif)。
对于 Gτ τ−l 中的每个快照 Gt,分别从 ARE 和 SRP 中导出简化的节点属性 Zt 和随机噪声 Rt。如图 4 所示,我们进一步通过 Ft = [Zt, Rt] 将它们连接起来,并将 Ft 输入到嵌入导出模块中。此外,相对于快照 Gτ+1 τ−l 的 Zτ+1 τ−l(由 ARE 给出)也用作嵌入导出和聚合模块的额外输入。
(b)嵌入推导。
嵌入推导模块(如图 5 所示)用于学习捕捉动态图演变模式的节点表示。它是一种具有多个 GNN-RNN (GR) 单元的堆叠结构,其中每个 GR 单元包含一个单层归纳 GNN、一个单层 GRU(RNN 的变体)和一个注意节点对齐单元。
在相对于快照 Gt 的时间步 t 中,考虑嵌入派生模块中的第 k 个 GR 单元。GNN 层将邻接矩阵 At 和节点特征矩阵 H(k-1) t 作为联合输入。H(k-1) t 可以来自特征提取模块(即,对于 k = 1,H(0) t = Ft)或前一个 (k - 1) 个 GR 单元的输出。GNN 层定义为
其中 Aˆ t = At + INt 是具有自连接边的邻接矩阵;Dˆ t = diag( ˆ dt 1, ˆ dt 2, ··· , ˆ dt Nt ) 是 Aˆ t 的对角线度矩阵;W(k−1) GNN 是可训练参数。(G(k) t )i,: 是节点 vt i 的潜在表示,它是来自 vt i ∪ n(vt i ) 的特征的非线性聚合(即加权平均值),其中 n(vt i ) 为 vt i 的邻居集。这也被称为 GNN 的消息传递,其中 vt i 的邻居将其特征传播到 vt i 进行聚合。
第 k 个 GR 单元中的 GRU 层将**(i)来自 GNN 的聚合潜在特征 G(k) t ∈ ∉Nt×L 和(ii)时间步 (t − 1) 的对齐 RNN 状态 Hˆ (k) t−1 ∈ ∉Nt×L 作为输入**,并输出当前时间步 t 的 RNN 状态 H(k) t ∈ ∉Nt×L。为简单起见,我们将 GRU 的操作表示为
由于篇幅限制,作者省略了中可以找到的GRU细节。导出的H(k)t也可以作为下一个(k+1)个GR单元中GNN的输入,形成嵌入导出模块的堆叠结构。
请注意,RNN 通常用于处理在连续时间步骤中具有固定样本数 N(即本研究中的节点数)的潜在状态 Ht ∈ ∉N×L,但作者考虑节点集可以不固定的 TLP(例如,Nt ∄= Nt+1)。为了处理节点集的变化,在将 H(k) t ∈ ∉Nt×L 作为下一个时间步(t + 1)的输入馈入 GRU 之前,引入了一个注意力节点对齐单元来导出对齐的 RNN 状态 ˆ H(k) t ∈ ∉Nt+1×L,该状态与下一个快照 Gt+1 的节点集匹配。对齐单元将(i)第三节中定义的对齐矩阵 Bt 和(ii)来自 ARE 的约化节点属性 {Zt, Zt+1} 作为输入:
Bt 编码数据集给出的 {Gt, Gt+1} 之间的节点对应关系。a(Zt, Zt+1) 表示注意对齐操作,它从属性 {Zt, Zt+1} 中提取额外的对齐关系,并使用 λ 调整其贡献。具体来说,
其中 hsrc(Zt) 和 hdst(Zt+1) 定义为源映射和目标映射,它们是具有与 (5) 相同定义的 MLP。在此设置中,H(k) t 和 Hˆ (k) t 分别与 Gt 和 Gt+1 的节点集匹配。
总之,将时间步 t 中的第 k 个 GR 单元表示为
在静态图中,堆叠的多层 GNN 可以通过其多步消息传递捕获高阶邻近度(即观察到的拓扑之外的节点相似性)[11]。我们的堆叠 GR 单元进一步将多步消息传递推广到连续快照,以探索时间高阶邻近度(即每个快照内以及快照之间的节点相似性)。嵌入推导模块是一种将 RNN 状态转换为连续快照的模型,从而可以捕捉动态图的演变模式。假设嵌入推导模块有 K 个 GR 单元。
作者将最后一层 GR 单元的对齐 RNN 状态表示为 Mt = ˆ H(K) t,并将其用作保留动态图关键属性的嵌入。注意 Mt 与 Gt+1 的节点集匹配。它进一步输入到嵌入聚合模块中以生成预测结果 A˜ t+1。
(c)嵌入聚合。
对于时间步长 t,引入嵌入聚合模块,从嵌入推导模块中导出给定 Mt 的预测结果 A˜ t+1。
受高斯核的启发,该核可以根据特征输入之间的距离构建加权相似性图(例如 exp(−|(Mt)i,: − (Mt)j,😐 2 2)/(2σ2)),我们将嵌入聚合模块定义为
其中 σij = (VtVT t )ij ,Vt = fs([Mt, Zt+1]),且 Ut = fe ([Mt, Zt+1])。首先连接 Mt 和 Zt+1(来自嵌入派生模块和 ARE),并通过映射函数 fs(·) 和 fe(·) 将 [Mt, Zt+1] 映射到两个辅助表示 Ut 和 Vt。预测邻接矩阵A˜ t+1 中的每个元素都是基于 {(Ut)i,:,(Ut)j,:} 之间的距离生成的。具体而言,我们使用从 {(Vt)i,:,(Vt)j,:} 的内积得出的自适应参数 σij 来缩放距离 |(Ut)i,: − (Ut)j,😐 2 2。fs(·) 和 fe(·) 是具有与 (5) 相同定义的 MLP,但使用 sigmoid 和 tanh 作为其激活函数。请注意,通过 (13) 或 (14) 得出的预测边权重 (A˜ t+1)ij 在 [0, 1] 范围内,其中具有较小尺度距离 σij |(Ut)i,: − (Ut)j,😐 2 2 的节点对 (vt i , vt j ) 具有接近于 1 的较大权重 (A˜ t+1)ij。
如图 2(b) 所示,通过自适应聚合嵌入 {(Mt)i,:,(Mt)j,:} 得出预测结果的每个加权元素 (A˜ t+1)ij,这是归纳性的。归纳性表明嵌入聚合可以 (i) 感知节点的删除,并且 (ii) 通过调整 Mt 相对于节点数 Nt+1 的行维数直接推广到新的未见节点。例如,即使 Nt+1 ∄= Nt∊ +1,它也可以得出加权预测结果 {A˜ t+1, A˜ t∊ +1}。
让 d 为嵌入的维数。通常,我们设置 d < Nt。嵌入聚合模块中的模型参数是 MLP {fs(·), fe(·)} 的权重矩阵,其空间复杂度仅为 O(d2)。相比之下,图 2(a) 中的两种固定维映射方案的空间复杂度分别为 O(NC d) 和 O(N3 C d),其中 NC 为关联快照中的累计节点数,且 d<Nt ≤ NC 。因此,我们的嵌入聚合模块的空间复杂度比现有的固定维映射方案方法低得多。
2)判别器 D:
D 是一个辅助结构,用于从 G 中细化预测结果 A˜ τ+1 τ−l+1。它交替以真实值 Aτ+1 τ−l+1 和相对于快照 Gτ+1 τ−l+1 的预测结果 A˜ τ+1 τ−l+1 作为输入,并在每个时间步 t 中将 At 与 A˜ t 区分开来。此外,D 还将属性 Xτ+1 τ−l+1 作为输入。
对于每个时间步长 t,我们将 D 表示为 yt = D(St, Xt; δD),其中 St ∈ {At, A˜ t};yt ∈ ∉Nt 是一个 Nt 维向量,其中 (yt)i 表示 (St)i,: = (At)i,: 而不是 (St)i,: = (A˜ t)i,: 的概率;δD 是可训练模型参数集。
如图 4 所示**,D 由 (i) ARE、(ii) 多层归纳 GNN 和 (iii) MLP 组成**。D 中的 ARE 与 G 中的 ARE 具有相同的定义。它将节点属性 Xτ+1 τ−l+1(相对于要预测的快照)作为输入,并输出简化属性 Zτ+1 τ−l+1,用作多层 GNN 的特征输入。此外,多层 GNN 交替将预测结果 A˜ τ+1 τ−l+1 和真实结果 Aτ+1 τ−l+1 作为所有层的拓扑输入。每个 GNN 层的定义与 (8) 相同。MLP 的定义与 (5) 相同,但使用 sigmoid 作为其激活函数。它输出概率向量 yτ+1 τ−l+1 用于对抗学习。
B.模型优化
由于 IDEA 是一种典型的 OTOG 方法,可以将动态图(即一系列快照)分为训练集 ΓT、验证集 ΓV 和测试集 Γ∊ 。首先在 ΓT 上优化模型(在 ΓV 上验证性能),然后将其推广到 Γ∊ 。当涉及到新的时间步长 τ 时,现有的 TLP 方法通常根据历史快照 Gτ τ−l 得出单个预测结果 A˜ τ+1 。相反,IDEA 为每个时间步长 τ 持续生成多个预测结果 A˜ τ+1 τ−l+1 w.r.t. Gτ+1 τ−l+1 ,这有助于捕获更具信息的动态图演变模式。在离线训练中,生成器 G 和鉴别器 D 通过对抗过程联合优化。一方面,D 试图区分真实值 Aτ+1 τ−l+1 与预测结果 A˜ τ+1 τ−l+1(由 G 给出)。对于 Gτ+1 τ−l+1 中的快照 Gt,D 最小化以下损失:
由于 IDEA 针对每个新时间步长 τ 得出关于 Gτ+1 τ−l+1 的多个预测结果,我们将 D 的目标公式化为
其中 dt = (1 − θ)τ+1−t (θ ∈ [0, 1]) 是一个衰减因子,以确保远离下一个时间步 (τ + 1) 的快照对综合损失的贡献相对较小。
另一方面,G 试图生成合理的预测结果 A˜ τ+1 τ−l+1 来欺骗 D。对于 Gτ+1 τ−l+1 中的每个快照 Gt,G 旨在最小化对抗学习 (AL) 的损失:
受到高分辨率 VFP 和 GAN [19] 的启发,我们期望 G 和 D 之间的这种对抗过程可以指导 G 生成高质量的预测结果 A˜t,从而解决宽值域和稀疏性问题。然而,在一些应用中,GAN 还可能生成训练数据中未观察到的合理样本 [28]。这表明如果仅使用 AL 目标,则可能存在例外,即 G 生成一个合理快照(例如,稀疏的 A˜ t),该快照可以成功欺骗 D,但与真实值 At 不一致(例如,仍然具有较大的重建误差)。
由于误差最小化 (EM) 目标在现有的 TLP 方法中被广泛使用,预计传统的 EM 损失可以帮助得出与真实值一致的预测结果,尽管它无法解决第 I 节中讨论的宽值范围和稀疏性问题。因此,还将 EM 目标纳入 G 的优化中,以最小化每个快照 Gt 的以下损失:
其中使用 F 范数和 l1 范数的经典损失。
除了 AL 损失之外,还引入了一种新颖的尺度差异最小化 (SDM) 目标,该目标利用对数函数 log10(·) 来测量 {At, A˜ t} 之间的尺度差异,这有助于解决宽值域问题。为了避免 log10 的零异常(即 log10(0) = nan),我们使用两个辅助矩阵 {Rt,Lt} 来裁剪 {At, A˜ t},其中 (Rt)ij = max{(At)ij , ε/me} 和 (Lt)ij = max{(A˜ t)ij , ε/me};ε 是一个较小的正阈值;me 是所有快照中的最大边权重。裁剪操作还可以增强 IDEA 区分邻接矩阵中零元素和非零元素的能力,从而解决稀疏性问题。对于每个快照 Gt,SDM 目标最小化以下损失:
其中 dt 的定义与 (16) 相同;α 和 β 是调整 LEM 和 LSDM 贡献的参数。
算法1 离线训练过程算法
在算法 1 中,包括预训练(即第 5-10 行)和正式优化(即第 12-18 行)。对于每个快照 Gt,我们首先将 At 中的边权重归一化到范围 [0, 1](即第 2-3 行)。
在优化模型时,我们将窗口(长度为 l)滑动到 ΓT 中的所有快照(即第 6 行和第 13 行),其中 IDEA 为每个时间步 τ 不断生成多个预测结果 A˜ τ+1 τ−l+1(即第 9 行和第 16 行)。Adam 优化器用于优化模型参数。在正式优化 G 和 D 之前,我们建议仅使用 EM 损失对 G 进行预训练,这样 G 才具有初步得出与真实值一致的预测结果的能力。对于每次步骤 τ,我们将预训练目标制定为
具体来说,np 和 ηp 表示预训练中的 epoch 数和学习率。在正式优化中,我们在窗口滑动时通过损失 (16) 和 (20)(即第 17 行和第 18 行)交替更新 δD 和 δG,其中 n 表示训练 epoch 数;ηG 和 ηD 是 G 和 D 的学习率。最后,将质量最好的参数 δ∗ G 保存在 ΓV 上(即第 19 行)。
算法 2 在线泛化算法。
算法 2 总结了在给定先前快照 Gτ τ−l 的情况下得出预测结果 A˜ τ+1 的在线泛化。在将模型推广到测试集 Γ∊ 时,我们固定了学习到的模型参数 δ∗ G 并且仅使用 A˜ τ+1(来自 G 给出的 A˜ τ+1 τ−l+1)作为每个新时间步 τ 的最终预测结果(即第 1-5 行)。由于导出的 A˜ τ+1 在值范围 [0, 1] 内,在第 6 行进一步将其恢复到原始值范围。第 7 行还使用了几种策略来细化 A˜ τ+1。具体来说,首先将所有对角线元素设置为零,此外,还将所有值小于小阈值 ω 的元素设置为零:
C.实验
V-A 数据集、评估指标和基线的实验设置。
数据集
使用 Mesh、HMob、DC 和 T-Drive 作为 Level-1 中 TLP 的基准,这些基准具有固定的节点集。
相比之下,对于第 2 级和第 3 级,使用具有非固定节点集的 SEvo、IoT 和 WIDE。
对于 Mesh、DC、IoT 和 WIDE,使用 (32 位) 节点嵌入 (相对于数据集提供的每个节点) 和 (4) 中定义的时间嵌入的串联作为 IDEA 的属性输入,而对于其余数据集,仅使用时间嵌入,因为它们不提供可用的节点属性。
评估指标:我们遵循 [21]、[44],使用均方根误差 (RMSE) 和平均绝对误差 (MAE) 作为评估指标。令 A˜ τ+1 和 Aτ+1 分别为关于快照 Gτ+1 的邻接矩阵的预测结果和真实值。RMSE 和 MAE 是基于 ˜ Aτ+1 和 Aτ+1 之间误差的指标:
如第一部分所述,它们仅对较大的边权重敏感。为了定量评估解决宽值域和稀疏性问题的能力,引入了平均对数尺度差异(MLSD)和不匹配率(MR)。
与RMSE和MAE中使用的F范数和l1范数相比,对数函数log10(.)可以有效地测量尺度差异。例如,(1,2)之间的尺度差异大于(1990,2000)之间的尺度差异,|log10(1/2)|>|log10(1990/2000)|,尽管后者的重构误差大于前者,(1-2)2<(1990-2000)2和|1-2|<|1990-2000|。
基于这种直觉,我们引入 MLSD 来使用 log10(.) 评估 A˜ τ+1 和 Aτ+1 之间的尺度差异,这也衡量了解决宽值域问题的能力。两个辅助矩阵 P ∈ ∉Nt×Nt 和 Q ∈ ∉Nt×Nt 用于避免 log10(.) 的零异常,即 log10(0) = nan。具体而言,我们设置 Pij = max{(Aτ+1)ij , γ} 和 Qij = max{(A˜ τ+1)ij , γ},其中 γ 是一个较小的正阈值(例如,在我们的实验中 γ = 10−5),以裁剪 Aτ+1 和 ˜ Aτ+1 中的零元素。MLSD 定义为
MR 定义为所有可能的 N2 τ+1 对中此类不匹配节点对的比例:
其中 cmis(A˜ τ+1, Aτ+1) 是错配对的数量。 请注意,1 − MR(A˜ τ+1, Aτ+1) 是 {A˜ τ+1, Aτ+1} 之间成功匹配零和非零元素的准确率。 MR 与此准确率成反比,因此衡量了解决稀疏性问题的能力
通常,RMSE、MAE、MLSD、MR越小,表示预测质量越好,特别是能够解决宽值域和稀疏性问题的高质量预测结果,MLSD和MR越小。
基线
基线:我们将 IDEA 与表 II 中总结的 13 个基线进行了比较,其中“L1”、“L2”和“L3”代表第 III 节中定义的三个 TLP 级别;“S”表示一种方法只能解决第 2 级的特殊情况(即使用大型邻接矩阵来表示可能存在孤立节点的快照);“Param”表示要优化的模型参数的空间复杂度;“Res”表示表示预测结果 A˜ τ+1 的空间复杂度;NC 和 Nt 的定义与表 I 相同;NU = |V∪(τ−l:τ)| 是前 l 个快照的累积节点数;d 是潜在嵌入的维数。通常,我们有 d<Nt ≤ NU ≤ NC 。
请注意,并非所有现有方法都可以解决加权图上的 TLP,因为其中一些方法仅适用于非加权图,例如第二部分中描述的 DynamicTriad [46] 和 DynGraphGAN [40]。我们只考虑可以捕获加权拓扑并预测加权快照的基线。
在表 II 中,CRJMF [8]、DeepEye [1]、TMF [43] 和 LIST [44] 是 OTI 方法,而 dyngraph2vec (D2V) [10]、DDNE [14]、E-LSTM-D [4]、EvolveGCN (EGCN) [24]、DySAT [32]、STGSN [21]、GCN-GAN [13] 和 NetGAN [42] 是 OTOG 基线。
V-B 定量评估结果
除了 GCN-GAN 和 NetGAN 之外,所有基线在大多数情况下都有较大的 MLSD 和 MR。这验证了仅通过误差最小化目标训练的方法只能得出低质量的预测结果,无法解决宽值范围和稀疏性问题。
总之, IDEA 方法可以为加权动态图得出高质量的预测结果,并以低空间复杂度解决节点集的变化。
V-C 定性分析结果
为了说明高质量的预测结果,我们对所有方法的预测快照(以邻接矩阵的形式)进行了可视化。图 6 和图 7 显示了 Mesh 和 IoT 中两个测试快照的示例。与图 1 类似,我们通过设置所有零到 -500,其中深蓝色、浅蓝色和黄色表示零、小和大权重。在图 6 和图 7 中,除 GCN-GAN、NetGAN 和 IDEA 之外的所有方法都只能得出密集的邻接矩阵,而无法区分零权重和小权重(即低质量预测。由于它们仅使用误差最小化目标进行训练,因此很难达到预期结果,这与表 IV 中它们较差的 MLSD 和 MR 一致。虽然 GCN-GAN 和 NetGAN 可以在图 6 中生成接近真实值的稀疏快照,但它们的空间复杂度高达 O(N3Cd),并且无法在图 7 中以更大的 NC 和第 3 级得出预测结果。相比之下,在图 6 和图 7 中,IDEA 可以在所有级别以低复杂度 O(d2) 得出拟合真实值大、小和零元素的稀疏快照(即高质量预测结果)。
V-D 运行时分析
除了预测质量,作者还测试了所有方法的预测时间。表 V 以秒为单位描述了一个预测操作相对于测试集 Γ∊ 的平均运行时间。如第二部分所述,OTI 方法一旦进入新的时间步骤就需要不断优化模型参数,即使对于 Γ∊ 中的快照也是如此,而 OTOG 方法在推广到 Γ∊ 时不需要额外的模型优化。特别是,OTOG 方法的预测时间通常包括特征提取和通过神经网络的一次前馈传播。因此,OTOG 方法的平均运行时间比表 V 中的 OTI 方法快得多。
由于 IDEA 使用归纳嵌入聚合方案得出预测结果,其预测时间比图 2 中采用第一个固定维度映射的其他 OTOG 方法(即 D2V、DDNE 和 E-LSTM-D)略长。但是,采用固定维度映射方案的方法只能处理 L1 和 L2 的特殊情况,而 IDEA 的归纳嵌入聚合可以以较低的空间复杂度处理所有级别。
V-E 消融研究
我们考虑了 (i) EM 损失、(ii) SDM 损失、(iii) AL 损失、(iv) 特征输入 {Xt}、(v) 结构随机投影 (SRP)、(vi) 自适应嵌入聚合 (AEA) 和 (vii) 预训练的有效性,方法是分别从原始模型中排除相应的组件。具体而言,在情况 (iv) 中,我们使用一个常数矩阵 E ∈ ∉Nt×La 将所有元素设置为 1 来替换属性输入 Xt,这是节点属性不可用时 GNN 的标准设置。对于情况 (v),我们使用随机噪声 Θ ∼ U[0, 1] 来替换 Rt。此外,我们采用了其他任务相关的动态图嵌入基线(即第 V-A 节中描述的 STGSN 的 MLP 解码器)的嵌入聚合来替换 IDEA 中的 AEA。表 VI 显示了 Mesh(L1)、HMob(L1)和 IoT(L2&3)上的示例结果。
总结
在本文中,作者考虑了加权动态图上具有挑战性的 TLP。受高分辨率 VFP 的启发,作者提出了一种新颖的 IDEA 方法,该方法将归纳动态图嵌入集成到 GAN 中,并结合了误差最小化和尺度差异最小化的目标。这种混合优化目标使 IDEA 能够生成高质量的预测结果,解决了宽值域和稀疏性问题。归纳性质在原创的注意节点对齐和自适应嵌入聚合设计的支持下,进一步使 IDEA 能够解决节点集的变化。在各种场景的数据集上进行的实验验证了 IDEA 可以为具有固定和非固定节点集的加权图得出高质量的预测结果。
未来研究方向
- 在本研究中,假设所有快照的节点属性都是固定的,这些属性可以来自表示每个节点唯一身份的信息。一些真实的复杂系统也可能具有动态节点属性(例如,社交媒体中的用户分析)。在未来的工作中,打算考虑更具挑战性的具有固定和动态属性的 TLP。
- 论文采用了经典的基于等距快照的动态图描述,其中连续快照之间的时间间隔是规则的。在未来的工作中,打算进一步扩展 IDEA,以包括动态图的不均匀间隔描述 ,其中连续系统行为(例如,添加和删除节点和边)之间的时间间隔可以是不规则的。特别是,具有这种不均匀间隔描述的 TLP 模型在扩展到超大图(就节点数量而言)时具有空间效率。
- 此外,还计划探索一种更有效的大型加权动态图评估协议(例如,基于某些采样策略),而不是检查 RMSE、MAE、MLSD 和 MR 中的所有 O(N2 t) 节点对。
- 除了 TLP,还有一些其他的动态图推理任务,例如动态社区检测 [31]。在未来的工作中,还计划考虑 IDEA 将 TLP 的目标与其他推理任务结合起来的潜力,同时处理加权动态图上的多个任务。