40、基于新型图Transformer模型的深度强化学习算法

基于新型图Transformer模型的深度强化学习算法

1. 模型架构

1.1 编码器

在编码器部分,主要涉及多头注意力机制(Multi-Head Attention, MHA)的计算。具体步骤如下:
1. 对于每个节点的嵌入 $h_i$,通过线性变换得到查询向量 $Q_i$、键向量 $K_i$ 和值向量 $V_i$:
- $Q_i = W_Qh_i$
- $K_i = W_Kh_i$
- $V_i = W_Vh_i$
其中,$W_Q$ 和 $W_K$ 是 $(d_k \times d_h)$ 矩阵,$W_V$ 大小为 $(d_V \times d_h)$,$d$ 是维度,$h_i$ 是节点 $i$ 的嵌入。
2. 计算每个头的注意力输出:
- $Head_i = Attention(Q_i, K_i, V_i) = softmax(\frac{Q_iK_i^T}{\sqrt{d}})V_i$,$i = 1, 2, \cdots, H$
这里头的数量 $H = 8$。
3. 将所有头的输出拼接并通过线性变换得到多头注意力的输出:
- $MHA(Q, K, V) = Concat(Head_1, Head_2, \cdots, Head_H)W_o$
4. 经过跳跃连接和双曲正切激活函数更新节点嵌入:
- $\hat{h}_i = tanh(h_i + MHA(Q, K, V))$
5. 在每两个子层之后,应用跳跃连接和批量归一化(Batch Normalization, BN):
- $\hat{f}_i = BN(\hat{h}_i + MHA(Q, K,

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值