训练神经网络的五大算法

最新推荐文章于 2025-11-04 08:48:50 发布

原创

最新推荐文章于 2025-11-04 08:48:50 发布 · 8k 阅读

·

2

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#神经网络 #算法 #人工智能

本文介绍了训练神经网络的五大算法，包括梯度下降法、牛顿算法、共轭梯度法、准牛顿法以及Levenberg-Marquardt算法。每种算法都有其特点和适用场景，例如梯度下降法适用于大型模型，而Levenberg-Marquardt适合平方和误差类的损失函数。内存和速度的比较显示，梯度下降法最节省内存但速度慢，Levenberg-Marquardt速度快但内存需求高。

原文： 5 algorithms to train a neural network
作者： Alberto Quesada 译者： KK4SBB
责编：何永灿，关注人工智能，投稿请联系 heyc@youkuaiyun.com 或微信号 289416419

神经网络模型的每一类学习过程通常被归纳为一种训练算法。训练的算法有很多，它们的特点和性能各不相同。

问题的抽象

人们把神经网络的学习过程转化为求损失函数f的最小值问题。一般来说，损失函数包括误差项和正则项两部分。误差项衡量神经网络模型在训练数据集上的拟合程度，而正则项则是控制模型的复杂程度，防止出现过拟合现象。

损失函数的函数值由模型的参数（权重值和偏置值）所决定。我们可以把两部分参数合并为一个n维的权重向量，记为w。下图是损失函数f(w)的图示。

如上图所示，w*是损失函数的最小值。在空间内任意选择一个点A，我们都能计算得到损失函数的一阶、二阶导数。一阶导数可以表示为一个向量：

ᐁ_if(w) = df/dw_i (i = 1,…,n)

同样的，损失函数的二阶导数可以表示为海森矩阵（ Hessian Matrix ）：

H_i,jf(w) = d²f/dw_i·dw_j (i,j = 1,…,n)

多变量的连续可微分函数的求解问题一直被人们广泛地研究。许多的传统方法都能被直接用于神经网络模型的求解。

一维优化方法

尽管损失函数的值需要由多个参数决定，但是一维优化方法在这里也非常重要。这些方法常常用于训练神经网络模型。

许多训练算法首先计算得到一个训练的方向d，以及速率η来表示损失值在此方向上的变化，f(η)。下图片展示了这种一维函数。

f和η*在η1和η2所在的区间之内。

由此可见，一维优化方法就是寻找到某个给定的一维函数的最小值。黄金分段法和Brent方法就是其中两种广泛应用的算法。这两种算法不断地缩减

最低0.47元/天解锁文章

评论 1

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

查看更多评论

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。