损失函数梯度下降的关系

最新推荐文章于 2024-10-12 11:42:44 发布

原创最新推荐文章于 2024-10-12 11:42:44 发布 · 8k 阅读

·

13

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文深入解析损失函数与梯度下降之间的关系，解释了损失函数衡量模型预测与真实值差距的概念，以及梯度下降作为求解损失函数最小值的优化算法的作用。通过实例说明了如何使用梯度下降法在训练集中找到最佳参数。

损失函数：计算的是一个样本的误差

代价函数：是整个训练集上所有样本误差的平均

目标函数：代价函数 + 正则化项

本人在阅读了很多资料后，发现很多博客都在介绍损失函数，梯度下降等方法，但是很多文章没有把二者的关系讲解清楚，本文试着阐述二者关系，希望对大家有帮助

损失函数（Loss function）是用来估量你模型的预测值 f(x)f(x) 与真实值 YY 的不一致程度，它是一个非负实值函数，通常用 L(Y,f(x))L(Y,f(x)) 来表示。损失函数越小，模型的鲁棒性就越好，常用的最小二乘法，大家可以参考该文章https://blog.youkuaiyun.com/u010976453/article/details/78488279，这里已经介绍了损失函数的定义以及损失函数的种类，因为本文重点在于阐述损失函数跟梯度下降的关系，所以仅仅本文仅仅平方损失函数为例，其他损失函数大家连接中的内容即可。

梯度下降是迭代法的一种,可以用于求解最小二乘问题(线性和非线性都可以)，梯度下降法大家可以参考 https://www.jianshu.com/p/c7e642877b0e 本文不在细说

梯度下降和损失函数的关系是：梯度下降是求解损失函数的一种最优化算法，

下面开始论述两者关系，以最小二乘法也叫平方损失为例：

假设目标函数定义为：

使用平方损失函数损失函数的形式如下：

我们的目的是求解损失函数的最小值：

MIN

求解一个函数的最小值就要求解一个函数的极小值，极小值为梯度为0的点，如果我们知道函数方程的所有，那么此方程就很好解了，但是在机器学习中，所知道只有训练集合中的值（X，Y）,并不知道值，所以求解方法最小值问题转化为求解问题，这时需要引入梯度下降法：

梯度下降求解的表达式为：其中a为学习率表达式如下：

展开后：

如果利用梯度下降法计算，那么这个方程中已知的只有（X,Y），其他都不知道，那么如何求解，解法为：

给所有的赋予一个随机初始值，然后不断根据训练数据，迭代获得最终的值，这样的话所有的参数都是已知，利用梯度下降就可以求解所有参数

Repeat until convergence 收敛的条件可以是设置固定的训练轮数，比如1000轮，或者是当梯度接近0的值，比如梯度已经达到0.00001等

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。