李宏毅机器学习入门笔记——第五节

本文探讨了如何通过batchnormalization解决类神经网络训练中的困难,特别是在误差表面崎岖时。同时介绍了transformer和其自注意力与交叉注意力机制,以及NAT和非自回归模型的优势,强调了注意力机制在减少计算量和提高效率中的作用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

类神经网络训练不起来的问题解决方式

标准化

对于 error surface 比较崎岖,难以训练的问题,就是可以使用batch normalization。对于不同的变量维度而言,如果差值比较大的时候,存在将预测的结果变大,导致训练的方向不理想。
对于不同变量的同一纬度使用归一化操作,即是标准化操作。
特征标准化
要注意的是变量的每一个维度代表一个维度。
对于每个神经网络层都可以增加标准化层。其中要注意的是层的前后顺序。
考虑特征共享的问题
当神经网络输入的变量考虑多个输入的时候,对于标准化层,能够通过计算输入的所有变量的标准差和平均值,进行所有的变量进行标准化操作。就是俗称的batch normalization。batch表示就是批量的输入,需要考虑的就是网络的大小。
额外的超参数
使用多两个额外的参数,是network的参数,因为之前的标准化操作,使得对应的输出值平均为0,但是往往希望平均不是0,不影响对应的模型,所以添加这个两个变量,使对应的均值不是0,主要是看模型的训练,可能是均值0,可能不是。
需要考虑对

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

pengshi12138

加油加油

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值