文章目录
T-GCN
早期研究
早期的方法只考虑了交通状况在时间上的动态变换,忽略可空间之间的相互依赖。一些研究引入了卷积神经网络来对空间特征进行提取,但普通卷积局限于处理像图像这种欧几里德结构的数据,对于交通数据这种复杂的拓扑结构效果不是很好。
本文贡献
本文引入了最近比较火的gcn,结合GRU来分别提取交通数据的空间特征和时间特征,达到不错的效果。网络也比较简单,亮点主要就是GCN的使用。
ST-GCN
本文亮点
- 第一次用纯卷积的形式来提取时间特征
- 提出了一个新的由时空块组成的神经网络,由于由于这个架构中是纯卷积操作,它比基于RNN的模型的训练速度快10倍以上,而且需要的参数更少。
注意: 在PeMSD7数据中,图的构建方法并不是基于实际路网,而是通过数学方法构建了一个基于距离关系的网络
网络结构
如上图,左边为整个网络,中间为ST-Conv Block具体结构,分为时间模块-空间模块-时间模块,来充分提取时空特征,空间模块就是gcn的应用。右边为时间模块的具体结构。
时间模块
尽管基于RNN的模型可以广泛的应用于时间序列分析,用于交通预测的循环神经网络仍然会遇到费时的迭代,复杂的门控机制,对动态变化的响应慢。相反,CNN训练快,结构简单,而且不依赖于前一步。
每个顶点的时间卷积的输入可以被看做是一个长度为M的序列,先进行一维卷积,即使用 1 ∗ K t 1*K_t 1∗Kt或 K t ∗ 1 K_t*1 Kt∗1大小的卷积核,这里使用 2 C o 2C_o 2Co个卷积核,得到的输出为 [ P Q ] ∈ R ( M − K t + 1 ) × ( 2 C o ) [P Q] \in \mathbb{R}^{(M-K_t+1) \times (2C_o)} [PQ]∈R(M−Kt+1)×(2Co)然后接了一个门控线性单元(GLU)作为激活,GLU定义为 Γ ∗ τ Y = P ⊗ σ ( Q ) ∈ R ( M − K t + 1 ) × C o \Gamma \ast_ \tau Y = P \otimes \sigma (Q) \in \mathbb{R}^{(M-K_t+1) \times C_o} Γ∗τY=P⊗σ(Q)∈R(M−Kt+1)×Co
⊗表示哈达玛积,文中还实现了残差连接,即P改为(P+X),X为时间模块的输入(为了实现残差,X直接取了 ( M − K t + 1 ) (M-K_t+1) (M−Kt+1)这个长度,即 X [ K t − 1 : ] X[K_t-1:] X[Kt−1:])。
输出层
一个额外的时间卷积和全连接层。
ASTGCN
本文亮点
- 考虑了不同周期时间段的影响,即周、日、时,比如一周的周一,一天的早晨,这都是车流量较大的时候,网络分为三个组件分别提取邻近、日、周的依赖特征。
- 同样用gcn提取空间特征,普通卷积提取时间特征,但在此基础上加入了注意力机制。
网络结构
三个组件分别提取出日、天、周的时空特征,然后进行融合后得到最终输出
时空注意力
-
空间注意力
在空间维度上,不同位置的交通状况相互影响,相互影响具有很强的动态性。因此我们使用注意力机制自适应地捕捉空间维度中节点之间的动态关联性。
N为观测点的个数。 -
时间注意力
在时间维度上,不同时间段的交通状况之间存在相关性
T为时间步数。
GMAN
本文亮点
本文针对长时间交通预测,提出了一个图多注意力的网络。
作者认为,长时间交通预测的困难有两点:
1、复杂的时空关联性
2、对误差传递的敏感。每个时间步的误差在长时间的预测中都会被放大。
争对上述问题,本文贡献如下:
1、对空间和时间的相关性都采用了注意力的方式建模
2、提出一个变换注意力机制将历史交通特征转换为未来的表示。这个注意力机制对历史和未来的关系直接建模,减轻错误传播的问题。
3、该网络在一小时预测上性能提升不少。
网络结构
时空嵌入(STE)
由于交通条件的演变由底层道路网络限制,将道路网络信息纳入预测模型是至关重要的。作者使用node2vec学习节点表示,得到节点向量,再将其送入一个两层的全连接网络,得到空间嵌入 e v e_v ev。
空间嵌入是静态的,不能表示路网的动态关联性。使用one-hot编码加两层全连接层得到时间嵌入 e t e_t et。对于某一节点 v i v_i vi在时间 t i t_i ti的时空嵌入为 e v i , t i = e v i + e t i e_{v_i,t_i}=e_{v_i}+e_{t_i} evi