损失函数:
1、绝对值损失函数
2、平方损失函数 (回归任务)
3、指数损失函数
4、交叉熵损失函数 (分类任务)
正则化:
L1正则化是指权值向量中各个元素的绝对值之和,可以实现让参数矩阵稀疏,让参数稀疏的好处,可以实现对特征的选择
L2正则化是指权值向量中各个元素的平方和然后再求平方根,解决过拟合问题。
1*1卷积: 实现跨通道交互、升降维、增加非线性
过拟合: 泛化能力差,原因:
网络太复杂,数据量不够; ---调小模型,增加数据集
训练集与测试集特征分布不一致;--正则化,dropout
样本中噪声数据干扰太大,
迭代次数太多了 -----提前停止
BN以及BN在测试阶段如何处理 ?
对每一个batch的数据根据求得的均值和方差进行归一化处理,主要作用是加速训练收敛,防止过拟合。
测试阶段,可以根据训练数据机每一个batch的均值和方差做平滑处理或者求均值,得到全局的均值和方差。
dropout在测试阶段如何处理 ?
Dropout 是在训练过程中以一定的概率的使神经元失活,即输出为0,以提高模型的泛化能力,减少过拟合。
在测试时,应该用整个训练好的模型,因此不需要dropout。在测试的时候没有神经元被丢弃,因此输出值需要按dropout比率缩小。
BN和Dropout单独使用都能减少过拟合并加速训练速度,但如果一起使用的话并不会产生1+1>2的效果,相反可能会得到比单独使用更差的效果
为什么会出现梯度消失和梯度爆炸 ?

本文介绍了深度学习中的各种损失函数,包括绝对值损失、平方损失、指数损失和交叉熵损失,及其在回归和分类任务中的应用。接着讨论了正则化方法,如L1和L2正则化,以及它们的作用。还探讨了1x1卷积、过拟合的原因和解决方案,如批量归一化(BN)、Dropout以及如何在测试阶段处理它们。此外,文章还涵盖了梯度消失问题、Softmax函数以及LSTM和GRU如何解决RNN的梯度消失问题。最后,提到了模型训练的挑战和解决方法,包括使用ReLU激活函数、残差网络等。
最低0.47元/天 解锁文章
1300

被折叠的 条评论
为什么被折叠?



