机器学习周记（第二十四周：文献阅读-DSTGN续）2024.1.1~2024.1.7

最新推荐文章于 2026-01-05 11:47:06 发布

原创

最新推荐文章于 2026-01-05 11:47:06 发布 · 1k 阅读

16 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #人工智能 #算法 #深度学习 #神经网络 #回归 #图论

本文详细介绍了深度时空图神经网络(DSTGN)中的动态图矩阵估计、自适应导引传播和时间卷积模块，强调了如何结合动态语义信息和静态拓扑信息，以及如何通过自适应传播模块实现网络层间的个性化信息传播。

摘要

ABSTRACT

1 动态图矩阵估计（Dynamic Graph Matrix Estimation，DGME）

2 自适应导引传播（Adaptive Guided Propagation，AGP）

2.1 引导矩阵估计器（Guide Matrix Estimator）

2.2 自适应传播（Adaptively Propagation）

3 时间卷积模块（Temporal Convolution Module）

4 优化目标（Optimization Objective）

摘要

本周继续阅读了上周的论文，明白了论文模型DSTGN中的各个模块。DSTGN主要包括动态图矩阵估计、自适应导引传播、时间卷积模块三大模块。其中动态图矩阵估计又包括节点级信息融合、动态依赖推断、图矩阵级信息融合、图损失四个模块；自适应导引传播包括引导矩阵估计器、自适应传播两个模块。动态图矩阵估计能够基于动态语义信息和静态拓扑信息有效捕获节点间的动态依赖关系，自适应导引传播能够根据网络不同层的参数和学习到的图自动改变邻居之间的权重。

ABSTRACT

This week, We continued reading the paper from last week and gained a comprehensive understanding of the various modules in the DSTGN model. DSTGN primarily consists of three major modules: dynamic graph matrix estimation, adaptive guided propagation, and time convolution module. The dynamic graph matrix estimation module further includes four sub-modules: node-level information fusion, dynamic dependency inference, graph matrix-level information fusion, and graph loss. The adaptive guided propagation module comprises two sub-modules: guiding matrix estimator and adaptive propagation. The dynamic graph matrix estimation effectively captures dynamic dependencies among nodes based on dynamic semantic information and static topological information. Meanwhile, adaptive guided propagation automatically adjusts the weights between neighbors based on the parameters of different layers in the network and the learned graph.

1 动态图矩阵估计（Dynamic Graph Matrix Estimation，DGME）

为了基于动态语义信息（节点级输入）和静态拓扑信息有效捕获节点间的动态依赖关系，设计了动态图矩阵估计，包括节点级信息融合（Node-level Information Fusion）、动态依赖推断（Dynamic Dependencies Inference）、图矩阵级信息融合（Graph Matrix-level Information Fusion）和图损失（Graph Loss）。首先给出了这两类信息的形式化定义，然后详细描述了所提出的图估计方法。

语义信息（Semantic Information）：节点上随时间变化的观测值就是语义信息，这是节点间影响力扩散的结果。模型使用CNN来每个节点的时间特征，即 $X^{c}_{T}=Conv(X_{T})$ ，使用大小为 $1 \times T_{h}$ 的 $d$ 个卷积核。由此，给定时间序列 $X_{T} \in \mathbb{R}^{N \times T_{h}}$ （其中特征维度 $F$ 是1），可以得到每个节点的语义信息 $X^{c}_{T} \in \mathbb{R}^{N \times d}$ 。

拓扑信息（Topology Information）：在本文中，采用节点嵌入来推断结构信息，即 $\widetilde{U}=E\cdot E^{T}$ ，其中 $\widetilde{U} \in \mathbb{R}^{N \times N}$ 和 $E \in \mathbb{R}^{N \times d}$ 是可训练的节点嵌入。与之前的方法不同的地方在于，论文没有使用ReLU和Sigmoid函数来去除负值以及归一化，主要原因是作者没有将 $\widetilde{U}$ 视为邻接矩阵，而是将其视为固定的结构信息。

节点级信息融合（Node-level Information Fusion）：为了捕获隐藏在节点级输入中的动态关联模式，同时确保图学习良好收敛，在节点上融合语义信息和结构信息。受信息融合结构的启发，论文使用门控机制自适应地融合节点上的两类信息。类似于门控机制中长短期信息的融合，将静态结构信息（节点嵌入）作为长期信息，将动态语义信息（节点级输入）作为短期信息。公式定义如下：

$r_{T}=\delta (W_{r_{e}}\cdot E+W_{r_{u}}\cdot X^{c}_{T})$ （1）