深度学习改善训练效果的方法 overfitting改善方法

最新推荐文章于 2022-08-15 15:59:15 发布

原创最新推荐文章于 2022-08-15 15:59:15 发布 · 1.2k 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

互联网专栏收录该内容

3 篇文章

订阅专栏

本文深入探讨了过拟合现象的本质，并提供了多种有效策略来解决这一挑战，包括选择合适的损失函数、使用mini-batch、引入新的激活函数、调整学习率、应用动量方法、实现早停、采用dropout技术、实施权重衰减等。通过这些方法，深度学习模型在训练数据上的表现得到改善，同时提高了在测试数据集上的泛化能力。

过拟合的实质就是对training date中的数据的自我特征做了高权重保留，导致对testing data验证中的结果不理想，如下示意图所示:

常见的解决方案

choosing proper loss

在选择Softmax作为output layer的时候选择cross entropy作为loss function，选择square时的评价函数平缓，无法评价输出结果利弊。

mini-batch

过小的batch ，一次epoch运行多次，可以减少局部特征的干扰

new activation function

不同深度可以得到不同的结果，过深的layers会导致overfitting，多试试。

adaptice learnign rate

最简单的方法是随着epochs减少learnign rates，原因是在最开始，我们预期离dest较远，随着epochs，离dest越近，所以适当减低leatring rate。

momentum

根据动能和势能的转换关系得到，

一般，神经网络在更新权值时，采用如下公式:

w = w - learning_rate * dw

引入momentum后，采用如下公式：

v = mu * v - learning_rate * dw

w = w + v

其中，v初始化为0，mu是设定的一个超变量，最常见的设定值是0.9。可以这样理解上式：如果上次的momentum()与这次的

负梯度方向是相同的，那这次下降的幅度就会加大，从而加速收敛。tensorflow中已经提供了Adam优化函数了。

early stop

检测training & tesitng 的loss 曲线

dropout

在maxout中效果佳，dropout rate随着epoch降低。

weight decay

traning date在input前就可以做些权重比值，对背景干扰赋予低系数。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。