梯度下降算法原理介绍

最新推荐文章于 2025-05-30 08:02:22 发布

已转行此号停用

最新推荐文章于 2025-05-30 08:02:22 发布

阅读量3k

点赞数 1

分类专栏：视频课程个人技术分享

个人技术分享同时被 2 个专栏收录

1402 篇文章

订阅专栏

5 篇文章

订阅专栏

本文深入探讨了梯度下降法的基本原理，包括梯度的概念、梯度下降与梯度上升的关系，以及算法的具体实现步骤。文章还讨论了如何通过调整步长和初始值来优化梯度下降算法，以提高搜索效率并避免陷入局部最优解。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

　　

　　梯度下降法

　　1、梯度：

　　在微积分里面，对多元函数参数求偏导数，把求的各参数的偏导数以向量的形式写出来，就是梯度。

　　梯度向量从几何意义上讲，就是函数变化增加最快的地方，沿着梯度向量的方向更容易找到函数的最大值，沿着向量相反的方向，梯度减小最快，更容易找到函数最小值。

　　2、梯度下降与梯度上升可以互相转化。求损失函数f(θ)的最小值，用梯度下降法迭代，亦可反过来求损失函数 -f(θ)的最大值，用梯度上升法。

　　3、梯度下降算法解析

　　(1)直观解释

　　eg.在一座大山的某一位置，要下山，走一步算一步，每走一步就计算当前位置的梯度，沿着当前梯度的负方向走一步(也就是当前最陡的位置)，然后再次计算当前位置，这样一步一步往下走，一直走到觉得已经到了山脚。有可能我们只是到了一个局部山峰底部。所以梯度下降不一定能找到全局最优解，有可能是一个局部最优解。当损失函数是凸函数的时候，梯度下降法所求的解就是全局最优解。

　　(2)相关概念

　　(i)步长：梯度下降迭代过程中每一步沿负方向前进的长度。

　　(ii)特征：样本输入部分，样本(x0,y0)，其样本特征为x,输出为y。

　　(Iii) 假设函数：在监督学习中，用假设函数拟合输入样本，记为hθ(x)。比如对于样本(xi,yi)。(i=1,2,...n),可以采用拟合函数如下：hθ(x) =θ0+θ1x。

　　(iv)损失函数：度量拟合程度，评估模型拟合好坏。损失函数极小化，意味着拟合程度最好，对应的模型参数为最优参数。线性回归中，损失函数通常为样本输出和假设函数的差取平方。

　　

　　(3)算法：

　　(i)代数法

　　(ii) 矩阵法

　　(4)算法调优

　　(i)步长选择。

　　步长太大，会导致迭代过快，错过最优解;

　　步长太小，迭代速度太慢，耗时间太长。

　　(ii)初始值选择。

　　有可能求的是局部最优解，所以要多次使用不同初始值进行运算，选择损失函数最小化的初始值。

　　(iii)将特征数据归一化。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。