50行代码，带你理解梯度下降法（Gradient Descent Method）

最新推荐文章于 2025-09-10 22:08:30 发布

原创

最新推荐文章于 2025-09-10 22:08:30 发布 · 4k 阅读

·

19

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#深度学习 #机器学习 #算法 #python #新星计划

本文从代码角度介绍梯度下降法。梯度下降法是常见优化算法，在机器学习中应用广泛。文中阐述了优化算法概念，对比了梯度下降法和牛顿法，介绍了梯度下降原理及更新公式，还给出用该法求多元函数最小值的代码示例。

该文章已生成可运行项目，

梯度下降法是一种常见的优化算法，在机器学习中应用很广泛。本文从代码的角度，带你理解梯度下降法。

在这里插入图片描述

优化算法

优化指的是改变x以最小化或最大化某个函数 f(x) 的任务。通常以最小化 f(x) 指代大多数最优化问题。最大化可以通过最小化 -f(x) 来实现。

在机器学习领域，我们把要最小化或最大化的函数称为目标函数（objective function）或准则（criterion）。当我们对其进行最小化时，也把它称为代价函数（cost function）、损失函数（loss function）或误差函数（error function）。¹

优化算法中常用的迭代方法有线性搜索和置信域方法等。线性搜索的策略是寻找方向和步长，具体算法有：梯度下降法、牛顿法、共轭梯度法等。²

梯度下降法为一阶收敛算法，当靠近局部最小解时梯度变小，收敛速度会变慢，并且可能以“之字形”的方式下降。如果目标函数为二阶连续可微，可以采用牛顿法，牛顿法（Newton’smethod）为二阶收敛算法，收敛速度更快，但是每次迭代需要计算Hessian矩阵的逆矩阵，复杂度较高。²下一章解析牛顿法。

梯度下降法

梯度（gradient）是相对一个向量求导的导数： $f$ 的导数是包含所有偏导数的向量，记为 $\nabla_\boldsymbol{x} f(\boldsymbol x)$ 。梯度的第 $i$ 个元素是 $f$ 关于 $\boldsymbol{x}_i$ 的偏导数。在多维情况下，临界点是梯度中所有元素都为零的点。

梯度下降（

本文章已经生成可运行项目

最低0.47元/天解锁文章

评论 26

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。