斯坦福机器学习课学习笔记（一）-梯度下降

最新推荐文章于 2021-02-06 22:16:05 发布

原创最新推荐文章于 2021-02-06 22:16:05 发布 · 344 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#线性回归 #梯度下降 #正规方程

机器学习专栏收录该内容

1 篇文章

订阅专栏

本文介绍了线性回归的基本概念及其应用，并详细探讨了梯度下降算法的原理与实现方式，包括批处理梯度下降和随机梯度下降。此外还介绍了正规方程式的使用方法。

本讲内容：

线性回归
梯度下降
正规方程组

线性回归

首先看一组关于房价的数据，该数据集只有一个特征。

living areas(feet2)	price($1000s)
2104	400
1416	232
1534	315
852	178
1940	240
..	..

下面介绍几个符号概念：

$m$ = 训练样本数量

$x$ = 输入变量/特征

$y$ = 输入变量/目标值 $x_{2}$

$(x,y)$ = 训练样本

$%uFF08x^{i},y^{i}%uFF09$ $(x^{(i)},y^{(i)})$ = 第 $i$ 个训练样本

监督学习的一般流程：

在该数据集上，假设

$H(x)=\Theta _{0}+\Theta _{1}x$

为了使问题更有趣，引入房间数的特征，则 $x_{1}$ 为房屋面积， $x_{2}$ 为房间数，那么有

living areas(feet2)	#bed rooms	price($1000s)
2104	3	400
1416	2	232
1534	2	315
852	1	178
1940	3	240
..	..	..

$h(X)=\Theta _{0}+\Theta _{1}x_{1}+\Theta _{2}x_{2}$

为简便起见，令 $x_{0}=1$ ，则有

$h(X)=\sum_{i=0}^{n}\Theta _{i}x_{i}=\Theta ^{T}X$

n为特征数， $\Theta ^{'}s$ 为参数集。

然后，令

$J(\Theta )=\frac{1}{2}\sum_{i=1}^{m}(h_{\Theta }(x^{(i)})-y^{(i)})^{2}$ ，

目标是 $minimizeJ(\Theta )$ 。

首先，我们将 $\Theta$ 从某个值开始（比如说零向量），然后不断更新 $\Theta$ 以减小 $J(\Theta )$ 。

梯度下降算法

更新 $\Theta$ 的算法称之为梯度下降算法，其思想如下：

$\Theta _{i}:=\Theta _{i}-\alpha \frac{\partial }{\partial \Theta _{i}}J(\Theta )$

$\frac{\partial }{\partial \Theta _{i}}J(\Theta )=\frac{\partial }{\partial \Theta _{i}}\frac{1}{2}(h_{\Theta }(x)-y)^{2} =2\cdot \frac{1}{2}(h_{\Theta }(x)-y)\cdot \frac{\partial }{\partial \Theta _{i}}(h_{\Theta }(x)-y)$

$=2\cdot \frac{1}{2}(h_{\Theta }(x)-y)\cdot \frac{\partial }{\partial \Theta _{i}}(h_{\Theta }(x)-y)$

$=(h_{\Theta }(x)-y)\cdot \frac{\partial }{\partial \Theta _{i}}(\Theta _{0}x_{0}+ ... +\Theta _{i}x_{i}+...+ \Theta _{n}x_{n}-y)$

$=(h_{\Theta }(x)-y)\cdot x_{i}$

因此，按 $\Theta _{i}:=\Theta _{i}-\alpha (h_{\Theta }(x)-y)\cdot x_{i}$ 的方式更新 $\Theta$ ，直到收敛。

以以上推导为基础，分别有批处理梯度下降和随机梯度下降算法两种方法。

批处理梯度下降算法：

$\Theta_{i}:=\Theta _{i}-\alpha \sum_{j=1}^{m}(h_{\Theta }(x^{(j)}-y^{(j)}))\cdot x^{(j)}$

----------------------------------------------------

随机梯度下降算法：

$repeat$

{

for j =1 to m

{

$\Theta _{i}:=\Theta _{i}-\alpha (h_{\Theta }(x^{(j)})-y^{(j)})\cdot x_{(j)}^{i}$

(for all i)

}

批处理和随机梯度下降算法的比较：

批处理梯度下降算法每次更新需要对所有的训练集进行计算，计算量较大。

而随机梯度下降算法每次更新只用一组训练数据，收敛时会在最小值附近徘徊。

正规方程式

下面介绍第二种最小化 $J(\Theta )$ 的方法。

对一个由mxn的矩阵映射到实数的函数f，可以这样定义 $f:\Re ^{mxn}\mapsto\Re$ ，f对A的导数为：

$\bigtriangledown _{A}f(A)=\begin{bmatrix} \frac{\partial f}{\partial A_{11}} & .. & \frac{\partial f}{\partial A_{1n}}\\ .. & .. & ..\\ \frac{\partial f}{\partial A_{m1}} &.. &\frac{\partial f}{\partial A_{mn}} \end{bmatrix}$