梯度下降详解-优快云博客

本文链接：https://blog.youkuaiyun.com/vincent_duan/article/details/113179044

本文介绍了梯度下降的基本概念，包括其在微积分中的定义及如何应用于机器学习中的参数优化过程。详细阐述了梯度的几何意义及其在寻找函数极值中的作用，并对比了批量梯度下降、随机梯度下降及小批量梯度下降的特点。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在上一节（线性回归）中介绍，在线性回归中参数值 $θ\theta$ 是不一定可以求出的，但是可以通过梯度下降的方式可求。

在微积分里面，对多元函数的参数求偏导数，把求得的各个参数的偏导数以向量的形式写出来，就是梯度。比如函数 $f (x, y)$ , 分别对x,y求偏导数，求得的梯度向量就是 $(∂f∂x,∂f∂y)T(\frac {\partial f}{\partial x},\frac {\partial f}{\partial y})^T$ ,简称grad f(x,y)或者 $∇f(x,y)\nabla f(x,y)$ 。对于在点 $x_0,y_0)$ 的具体梯度向量就是 $(∂f∂x0,∂f∂y0)T(\frac {\partial f}{\partial x_0},\frac {\partial f}{\partial y_0})^T$ .或者 $∇f(x0,y0)\nabla f(x_0,y_0)$ ，如果是3个参数的向量梯度，就是 $(∂f∂x,∂f∂y,∂f∂z)T(\frac {\partial f}{\partial x}, \frac {\partial f}{\partial y},\frac{\partial f}{\partial z})^T$ ,以此类推。

那么这个梯度向量求出来有什么意义呢？他的意义从几何意义上讲，就是函数变化增加最快的地方。具体来说，对于函数 $f (x, y)$ ,在点 $x_0,y_0)$ ，沿着梯度向量的方向就是 $(∂f∂x0,∂f∂y0)T(\frac {\partial f}{\partial x_0},\frac {\partial f}{\partial y_0})^T$ 的方向是 $f (x, y)$ 增加最快的地方。或者说，沿着梯度向量的方向，更加容易找到函数的最大值。反过来说，沿着梯度向量相反的方向，也就是 $−(∂f∂x0,∂f∂y0)T-(\frac {\partial f}{\partial x_0},\frac {\partial f}{\partial y_0})^T$ 的方向，梯度减少最快，也就是更加容易找到函数的最小值。

假设目标函数 $J(θ0,θ1)=12m∑i=1m(hθ(x(i)−y(i))2)J(\theta_0,\theta_1)=\frac{1}{2m}\sum_{i=1}^m(h_\theta(x^{(i)} - y^{(i)})^2)$ 。

为什么要除以样本个数 $m$ ?
假如有1万个样本，那么会得到一个目标函数 $J(θ)1J(\theta)_1$ ，10万个样本，得到一个目标函数 $J(θ)2J(\theta)_2$ ，那么10万个样本的损失值一定比1万个样本的损失值大，但不能说10万个样本的模型不好，因此需要算一个平均值 $1m\frac{1}{m}$ 。