3.4 Transformer论文复现:2. 编码器部分(规范化层、子层连接结构、编码器层)
2.6 规范化层
2.6.1 规范化层的作用
它是所有深层网络模型都需要的标准网络层,因为随着网络层数的增加,通过多层的计算后参数可能开始出现过大或过小的情况,这样可能会导致学习过程出现异常,模型可能收敛非常的慢. 因此都会在一定层数后接规范化层进行数值的规范化,使其特征数值在合理范围内.
2.6.2 规范化层的代码实现
# 规范化层 LayerNorm 实现思路分析
# 1 init函数 (self, features, eps=1e-6):
# 定义线性层self.a2 self.b2, nn.Parameter(torch.ones(features))
# 2 forward(self, x) 返回标准化后的结果
# 对数据求均值 保持形状不变 x.mean(-1, keepdims=True)
# 对数据求方差 保持形状不变 x.std(-1, keepdims=True)
#
本文详细介绍了Transformer模型中的规范化层、子层连接结构以及编码器层的实现,包括它们的作用、代码实现和总结。规范化层用于保持数值稳定,子层连接结构引入残差连接,而编码器层则负责特征提取。
订阅专栏 解锁全文
585

被折叠的 条评论
为什么被折叠?



