梯度下降

最新推荐文章于 2025-12-02 20:26:37 发布

原创最新推荐文章于 2025-12-02 20:26:37 发布 · 438 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习

机器学习专栏收录该内容

3 篇文章

订阅专栏

本文详细解析了梯度下降法的基本原理，介绍了如何利用该方法寻找最佳参数θ以最小化损失函数J(θ)，并讨论了如何使用矩阵运算提高计算效率。

写在前面

x : input variables/features
y : output variables

我们通过在一堆训练样本中，通过算法，找出一个函数h，使每一个输入样本能够得到我们想要的输出y.

假设一个样本中具有n个特征，则记X= $\bigl(\begin{smallmatrix}x_1\\x_2\\\vdots\\x_n\end{smallmatrix}\bigr)$ ，对于这n个特征，假设函数关系为 $h(x)=\theta_0+\theta_2x_1+...+\theta_nx_n$ ,写成矩阵可以表示为：

h (x) = \sum i = 0 n θ i x i = Θ T X

$h(x)=\sum_{i=0}^n \theta_i x_i=\Theta^T X$
但是建立的函数和实际的输出总是有差别的，我们把用

J(θ) $J(\theta)$ 来表示：

J (θ) = 1 2 \sum j = 1 n (h θ (x (j)) - y (j))

$J(\theta)=\frac{1}{2}\sum_{j=1}^n(h_\theta(x^{(j)})-y^{(j)})$
其中j表示样本的数量。

我们要做的

我们要通过一种算法使 $J(\theta)$ 达到最小。
把J想象成我们自己，此时我们站在一个山上，要到一个山谷去。我们环顾四周，想找到可以最快去到山谷的方向——很显然，如果我们每一步都像当前最陡的地方走，那么我们很可能最快到达山谷。

what is the direction that would take me downhill as quickly as possible?

假设我们只有一个样本，因为

\partial J ( θ ) \partial θ i = \partial \partial θ i [1 2 (h θ (X) - y) 2] = 2 * 1 2 (h θ (X) - y) * \partial \partial θ i (h θ (X) - y) = (h θ (X) - y) * x i

$\begin{align} \frac{\partial J(\theta)}{\partial \theta_i}&=\frac{\partial}{\partial\theta_i}[\frac{1}{2}(h_\theta(X)-y)^2]\\ & = 2*\frac{1}{2}(h_\theta(X)-y)*\frac{\partial}{\partial\theta_i}(h_\theta(X)-y)\\ &= (h_\theta(X)-y)*x_i \end{align}$
我们可以很容易的计算出

θi=θi−α(hθ(x)−y)∗xi $\theta_i=\theta_i-\alpha(h_\theta(x)-y)*x_i$ .其中

α $\alpha$ 为学习速率，可以理解为一个人下山时的步长。

当样本量足够多的时候，我们发现每计算一个参数值，就要对m个样本做一次累加，为了避免运算量，我们采用对每个样本进行运算，将运算后的值，再作为初始值，进行下一次运算，在第一次时的初始值由我们自己的指定.

就像是一个人站在山上往下走，如果按照上述的方法，人站在不同的地方就会产生不同的走法。这个最初的位置就像 $\Theta$ 初始值，初始值的选取对结果的影响很大。

用矩阵对它的表示

线性代数

$\nabla_\theta J=\left[\begin{matrix}\frac{\partial J}{\partial\theta_0}\\\vdots\\\frac{\partial J}{\partial\theta_n}\end{matrix}\right]$
当A为m*n的矩阵时：

\nabla A f (A) = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ \partial f \partial A 1 1 ⋮ \partial f \partial A m 1 \dots ⋱ \dots \partial f \partial A 1 n ⋮ \partial f \partial A m n ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥

$\nabla_A f(A)=\left[\begin{matrix}\frac{\partial f}{\partial A_11}&&\cdots&&\frac{\partial f}{\partial A_1n}\\\vdots&&\ddots&&\vdots\\\frac{\partial f}{\partial A_m1}&&\cdots&&\frac{\partial f}{\partial A_mn}\end{matrix}\right]$
当A为n*n时，则A的迹为A的对角线元素之和。

t r A B = t r B A

$tr AB=tr BA$

t r A B C = t r C A B = t r B C A

$tr ABC=tr CAB=tr BCA$

f (A) = t r A B

$f(A)=tr AB$
所以

∇A=∇trAB=BT $\nabla_A=\nabla trAB=B^T$

X Θ = ⎡ ⎣ ⎢ ⎢ ⎢ \dots ⋮ \dots (X 1) T) ⋮ (X (m)) T) \dots ⋮ \dots ⎤ ⎦ ⎥ ⎥ ⎥ * Θ = ⎡ ⎣ ⎢ ⎢ h θ (X (1)) ⋮ h θ (X (m)) ⎤ ⎦ ⎥ ⎥

$X\Theta=\left[\begin{matrix}\cdots&&(X^{1})^T)&&\cdots\\\vdots&&\vdots&&\vdots\\\cdots&&(X^{(m)})^T)&&\cdots\end{matrix}\right]*\Theta=\left[\begin{matrix} h_\theta(X^{(1)})\\\vdots\\ h_\theta (X^{(m)})\end{matrix}\right]$