TensorFlow上实现MLP多层感知机模型

最新推荐文章于 2025-05-17 13:29:43 发布

原创

最新推荐文章于 2025-05-17 13:29:43 发布 · 9.4k 阅读

15 ·

CC 4.0 BY-SA版权

文章标签：

#TensorFlow #MNIST #多层感知机 #Dropout #机器学习

本文介绍了多层感知机（MLP）的原理，探讨了过拟合问题及Dropout解决方案。通过在TensorFlow上实现MLP模型，利用ReLU激活函数和Dropout策略，提高了MNIST数据集的准确率至98%。文章还讨论了参数调试、梯度弥散问题以及ReLU的优势。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、多层感知机简介

Softmax回归可以算是多分类问题logistic回归，它和神经网络的最大区别是没有隐含层。理论上只要隐含节点足够多，即时只有一个隐含层的神经网络也可以拟合任意函数，同时隐含层越多，越容易拟合复杂结构。为了拟合复杂函数需要的隐含节点的数目，基本上随着隐含层的数量增多呈指数下降的趋势，也就是说层数越多，神经网络所需要的隐含节点可以越少。层数越深，概念越抽象，需要背诵的知识点就越少。在实际应用中，深层神经网络会遇到许多困难，如过拟合、参数调试、梯度弥散等。

过拟合是机器学习中的一个常见问题，是指模型预测准确率在训练集上升高，但是在测试集上的准确率反而下降，这通常意味着模型的泛化能力不好，过度拟合了训练集。针对这个问题，Hinton教授团队提出了Dropout的解决办法，在使用CNN训练图像数据时效果尤其有效，其大体思路是在训练时将神经网络某一层的输出节点数据随机丢失一部分。这种做法实质上等于创造出了许多新的随机样本，通过增大样本量、减少特征数量来防止过拟合。

参数调试问题尤其是SGD（StochasticGradient Descent）的参数，对SGD设置不同的学习率learning rate，最后得到的结果可能差异巨大。神经网络的优化通常不是一个简单的凸优化问题，它处处充满了局部最优。有理论表示，神经网络可能有很多个局部最优解都可以达到比较好的分类效果，而全局最优很可能造成过拟合。对SGD，我们希望一开始学习率大一些，加速收敛，在训练的后期又希望学习率小一些，这样可以低速进入一个局部最优解。不同的机器学习问题的学习率设置也需要针对性的调试，像Adagrad、Adam、Adadelta等自适应的方法可以减轻调试参数的负担。对于这些优化算法，通常我们使用其默认的参数设置就可以得到比较好的效果。

梯度弥散（Gradient Vanishment）是另一个影响深层神经网络训练的问题，在ReLU激活函数出现之前，神经网络训练是使用Sigmoid作为激活函数。非线性的Sigmoid函数在信号的特征空间映射上，对中央区的信号增益较大，对两侧区的信号增益小。当神经网络层数较多时，Sigmoid函数在反向传播中梯度值会逐渐减小，到达前面几层的梯度值就变得非常小了，在神经网络训练的时候，前面