神经网络的多头变压器与学习算法解析
1. 多头变压器(Multihead Transformer)
多头变压器是一种能将输入序列灵活转换为上下文感知输出序列的强大模型。选择 ( d = 512 ),( o = 64 ) 时,它能把输入序列 ( X \in R^{512×T} ) 转换为 ( Y \in R^{n×T} )。其工作流程如下:
1. 多头操作 :使用八组参数 ( A^{(j)}, B^{(j)} \in R^{l×512} ),( C^{(j)} \in R^{64×512} )(( j = 1, 2, \cdots, 8 ))。
2. 计算各头输出 :对于 ( j = 1, 2, \cdots, 8 ),计算 ( Z^{(j)} \in R^{64×T} = (C^{(j)}X) \text{softmax}((A^{(j)}X)^{\top}(B^{(j)}X)) )。
3. 拼接各头结果 :将所有头的结果拼接得到 ( Z \in R^{512×T} = \text{concat}(Z^{(1)}, Z^{(2)}, \cdots, Z^{(8)}) )。
4. 应用非线性变换 :( Y = \text{feedforward}(LN_{\gamma, \beta}(X + Z)) ),这里 ( \text{feedforward}(X) ) 是一个单隐藏层的全连接神经网络,对 ( X ) 的每一列 ( x_t ),经过参数为 ( W ) 和 ( b ) 的全连接层,再通过 ReLU 非线性层,即 ( y_t =
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



