基于新型图Transformer模型的深度强化学习算法
1. 模型架构
1.1 编码器
在编码器部分,主要涉及多头注意力机制(Multi-Head Attention, MHA)的计算。具体步骤如下:
1. 对于每个节点的嵌入 $h_i$,通过线性变换得到查询向量 $Q_i$、键向量 $K_i$ 和值向量 $V_i$:
- $Q_i = W_Qh_i$
- $K_i = W_Kh_i$
- $V_i = W_Vh_i$
其中,$W_Q$ 和 $W_K$ 是 $(d_k \times d_h)$ 矩阵,$W_V$ 大小为 $(d_V \times d_h)$,$d$ 是维度,$h_i$ 是节点 $i$ 的嵌入。
2. 计算每个头的注意力输出:
- $Head_i = Attention(Q_i, K_i, V_i) = softmax(\frac{Q_iK_i^T}{\sqrt{d}})V_i$,$i = 1, 2, \cdots, H$
这里头的数量 $H = 8$。
3. 将所有头的输出拼接并通过线性变换得到多头注意力的输出:
- $MHA(Q, K, V) = Concat(Head_1, Head_2, \cdots, Head_H)W_o$
4. 经过跳跃连接和双曲正切激活函数更新节点嵌入:
- $\hat{h}_i = tanh(h_i + MHA(Q, K, V))$
5. 在每两个子层之后,应用跳跃连接和批量归一化(Batch Normalization, BN):
- $\hat{f}_i = BN(\hat{h}_i + MHA(Q, K,
超级会员免费看
订阅专栏 解锁全文
3310

被折叠的 条评论
为什么被折叠?



