40、基于新型图Transformer模型的深度强化学习算法

最新推荐文章于 2025-09-25 15:36:47 发布

ice55

最新推荐文章于 2025-09-25 15:36:47 发布

阅读量17

点赞数

CC 4.0 BY-SA版权

分类专栏：智能系统前沿探析文章标签：图Transformer 深度强化学习路由问题

本文链接：https://blog.youkuaiyun.com/ice55/article/details/152242562

智能系统前沿探析专栏收录该内容

88 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

基于新型图Transformer模型的深度强化学习算法

1. 模型架构

1.1 编码器

在编码器部分，主要涉及多头注意力机制（Multi-Head Attention, MHA）的计算。具体步骤如下：
1. 对于每个节点的嵌入 $h_i$，通过线性变换得到查询向量 $Q_i$、键向量 $K_i$ 和值向量 $V_i$：
- $Q_i = W_Qh_i$
- $K_i = W_Kh_i$
- $V_i = W_Vh_i$
其中，$W_Q$ 和 $W_K$ 是 $(d_k \times d_h)$ 矩阵，$W_V$ 大小为 $(d_V \times d_h)$，$d$ 是维度，$h_i$ 是节点 $i$ 的嵌入。
2. 计算每个头的注意力输出：
- $Head_i = Attention(Q_i, K_i, V_i) = softmax(\frac{Q_iK_i^T}{\sqrt{d}})V_i$，$i = 1, 2, \cdots, H$
这里头的数量 $H = 8$。
3. 将所有头的输出拼接并通过线性变换得到多头注意力的输出：
- $MHA(Q, K, V) = Concat(Head_1, Head_2, \cdots, Head_H)W_o$
4. 经过跳跃连接和双曲正切激活函数更新节点嵌入：
- $\hat{h}_i = tanh(h_i + MHA(Q, K, V))$
5. 在每两个子层之后，应用跳跃连接和批量归一化（Batch Normalization, BN）：
- $\hat{f}_i = BN(\hat{h}_i + MHA(Q, K,