基于深度学习的伦敦短期交通数据预测
1. 模型基础
在模型构建方面,多头注意力机制应用于除最后一层之外的所有层。最后一层的输出即为预测结果,因为这是一个回归问题,其表达式如下:
[
\hat{x} {ni} = h {ni}^{l_{last}} = \sigma\left(\sum_{j\in N(i)} \alpha_{ni}^{l_{last}-1} \mathbf{W}^{l_{last}-1}h_{ni}^{l_{last}-1}\right)
]
2. 损失函数与参数优化
参数可通过最小化损失函数来估计,损失函数如下:
[
L = \sum_{t = 1}^{T}\sum_{i = 1}^{N}(\hat{x} {tni}-x {tni})^2+\lambda\sum_{i = 1}^{N}\sum_{l}|\mathbf{W} i^l|^2
]
其中,(\hat{x} {tni}) 和 (x_{tni}) 分别是节点 (n_i) 在时间 (t) 的预测和观测交通速度。这里采用了带正则化的 L2 平方损失,(\lambda) 是定义正则化项权重的超参数,模型中使用最常用的参数值 (\lambda = 0.01)。
在权重更新过程中,使用了基于梯度下降的弹性反向传播(Rprop)算法。选择 Rprop 而非其他优化算法(如随机梯度下降或 Adam)有三个原因:
- 它是最快的权重更新机制之一。
- Rprop 对梯度大小不敏感,具有很强的通用性。
- 它能为每个权重独立动态调整步长,减少了参数调
超级会员免费看
订阅专栏 解锁全文

40

被折叠的 条评论
为什么被折叠?



