9、【李宏毅机器学习（2017）】Tips for Deep Learning（深度学习优化）

深度学习优化技巧：从激活函数到正则化

最新推荐文章于 2025-09-13 21:55:29 发布

原创

最新推荐文章于 2025-09-13 21:55:29 发布 · 4.1k 阅读

·

4

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#机器学习 #深度学习 #keras #adam #adagrad

本文探讨了深度学习模型优化的各种策略，包括误差分析、激活函数的选择（如ReLU和Maxout）、自适应学习率方法（Adagrad、RMSProp、Momentum、Adam）、早停法、正则化（L1和L2）以及Dropout技术，旨在提升模型的预测精度和泛化能力。

在上一篇博客中介绍了Keras，并使用Keras训练数据进行预测，得到的效果并不理想，接下来将以此为基础优化模型，提高预测的精度。

目录

误差分析

模型误差原因分析

在上一篇博客中，我们按照步骤建立了神经网络模型V1.0版本，效果很不理想，因此逐步回溯建模的过程，分析模型不理想的原因：

如果模型在训练集的准确率就不好，说明模型欠拟合，应该重新调整模型，提高训练集的拟合效果；
如果模型在训练集的准确率高而在测试集的准确率很低，就说明了模型存在过拟合的问题。

这里写图片描述

$\quad$

模型优化方案

针对这两种情况分别提出相应的优化措施。
这里写图片描述

$\quad$

New activation function

Vanishing Gradient Problem

常见的以sigmoid函数作为激活函数的神经网路在模型深度很高的时候往往存在梯度消失问题，接近input vector的神经层梯度小，在接近output vector的神经层梯度大，在学习速率一样的情况下，接近input vector的神经层学习速度慢，接近output vector的神经层学习速度快，因此会导致后面几层的神经层达到最优化而前面几层还没怎么进行调参，此时算法停止但并非最优解。如图，通过sigmoid函数会将变化减小，在多神经层的情况下，尽管很大，最终反映在后面几层的变动将大大减小。
这里写图片描述

$\quad$

ReLU

ReLU全称Rectified Linear Unit，以ReLU作为激活函数可以解决梯度消失问题，通过ReLU对于一个样本通常整个神经网络被简化为较简单的形式（剔除为output为0的神经元）。
这里写图片描述

ReLU还有多种变形：
这里写图片描述

$\quad$

Maxout

Maxout介绍

Maxout让神经网络自动地学习适合的激活函数，如图， (x1,

最低0.47元/天解锁文章

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。