19、神经网络的多头变压器与学习算法解析

神经网络的多头变压器与学习算法解析

1. 多头变压器(Multihead Transformer)

多头变压器是一种能将输入序列灵活转换为上下文感知输出序列的强大模型。选择 ( d = 512 ),( o = 64 ) 时,它能把输入序列 ( X \in R^{512×T} ) 转换为 ( Y \in R^{n×T} )。其工作流程如下:
1. 多头操作 :使用八组参数 ( A^{(j)}, B^{(j)} \in R^{l×512} ),( C^{(j)} \in R^{64×512} )(( j = 1, 2, \cdots, 8 ))。
2. 计算各头输出 :对于 ( j = 1, 2, \cdots, 8 ),计算 ( Z^{(j)} \in R^{64×T} = (C^{(j)}X) \text{softmax}((A^{(j)}X)^{\top}(B^{(j)}X)) )。
3. 拼接各头结果 :将所有头的结果拼接得到 ( Z \in R^{512×T} = \text{concat}(Z^{(1)}, Z^{(2)}, \cdots, Z^{(8)}) )。
4. 应用非线性变换 :( Y = \text{feedforward}(LN_{\gamma, \beta}(X + Z)) ),这里 ( \text{feedforward}(X) ) 是一个单隐藏层的全连接神经网络,对 ( X ) 的每一列 ( x_t ),经过参数为 ( W ) 和 ( b ) 的全连接层,再通过 ReLU 非线性层,即 ( y_t =

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值