Andrew Ng机器学习(ML)入门学习笔记（二）

最新推荐文章于 2024-03-08 00:32:33 发布

原创最新推荐文章于 2024-03-08 00:32:33 发布 · 1.7k 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #多变量线性回归 #多项式回归 #正规方程

机器学习同时被 2 个专栏收录

11 篇文章

订阅专栏

模式识别

9 篇文章

订阅专栏

本文深入探讨了多变量线性回归的概念和技术，包括假设函数的定义、代价函数的计算方式、梯度下降法的应用及优化策略，并介绍了正规方程这一求解方法。

一.多变量线性回归(Multivariate linear regression)

前面讨论的房屋价格问题我们认为房屋价格只与其大小有关，故定义了 $h_\theta(x)=\theta_0+\theta_1x$ 这样的假设函数。

若房屋的价格 $y$ 受到其大小 $x_1$ ，卧室数量 $x_2$ ，楼层 $x_3$ ，房屋年龄 $x_4$ 多个因素共同影响，则称为多特征或多变量问题。

符号说明：

$n →特征变量的数目$ ，如这里 $n=4$

$x^{(i)}$ → 第 $i$ 组训练数据的所有特征

$x_j^{(i)}$ → 第 $i$ 组训练数据的特征 $j$ 的值

此时假设函数 $h_\theta(x)=\theta_0+\theta_1x_1+\theta_2x_2+\theta_3x_3+\theta_4x_4$ ，我们可以令 $x_0=1，即x_0^{(i)}=1$ ，

并把特征变量的数目扩展到 $n$ ，得到多变量线性回归一般的假设函数

h θ (x) = θ 0 x 0 + θ 1 x 1 + θ 2 x 2 + \cdot \cdot \cdot + θ n x n

$h_\theta(x)=\theta_0x_0+\theta_1x_1+\theta_2x_2+···+\theta_nx_n$
定义两个

n+1维向量 $n+1维向量$ ,

x = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ x 0 x 1 x 2 ⋮ x n ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ \in R n + 1

$x=\begin{bmatrix}x_0\\x_1\\x_2\\\vdots\\x_n\end{bmatrix}\in\mathbb{R}^{n+1}$

θ = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ θ 0 θ 1 θ 2 ⋮ θ n ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ \in R n + 1

$\theta=\begin{bmatrix}\theta_0\\\theta_1\\\theta_2\\\vdots\\\theta_n\end{bmatrix}\in\mathbb{R}^{n+1}$
则

hθ(x)=θTx $h_\theta(x)=\theta^Tx$ 。

代价函数 $J(\theta_0,\theta_1,\cdots,\theta_n)=\frac{1}{2m}\sum_{i=1}^m(h_\theta(x^{(i)})-y^{(i)})^2$ ,用上述 $n+1$ 维向量形式表示 $\theta$ ，则

J (θ) = 1 2 m \sum i = 1 m (h θ (x (i)) - y (i)) 2

$J(\theta)=\frac{1}{2m}\sum_{i=1}^m(h_\theta(x^{(i)})-y^{(i)})^2$
也可以写成

J (θ) = 1 2 m \sum i = 1 m ((\sum j = 0 n θ j x (i) j) - y (i)) 2

$J(\theta)=\frac{1}{2m}\sum_{i=1}^m((\sum_{j=0}^n\theta_jx_j^{(i)})-y^{(i)})^2$

二.多变量回归的梯度下降

根据代价函数 $J(\theta)$ ，可以得到多变量线性回归的数学表达

重复直到收敛{

θ j : = θ j - α \partial \partial θ j J (θ)

$\theta_j:=\theta_j-\alpha\frac{\partial}{\partial\theta_j}J(\theta)$ }，为

j=0,1,⋯,n $j=0,1,\cdots,n$ 同时更新。

将 $J(\theta)$ 的表达式代入，可以得到

θ j : = θ j - α 1 m \sum i = 1 m ((h θ (x (i)) - y (i)) x (i) j)

$\theta_j:=\theta_j-\alpha\frac{1}{m}\sum_{i=1}^m((h_\theta(x^{(i)})-y^{(i)})x_j^{(i)})$
这里之所以会多乘一项

x(i)j $x_j^{(i)}$ ，是因为

hθ(x(i))=θ0x(i)0+θ1x(i)1+⋯+θnx(i)n $h_\theta(x^{(i)})=\theta_0x_0^{(i)}+\theta_1x_1^{(i)}+\cdots+\theta_nx_n^{(i)}$ 对

θj $\theta_j$ 求偏导时会得到

θj $\theta_j$ 项前面的系数

x(i)j $x_j^{(i)}$ 。

三.特征缩放(Feature Scaling)

多变量线性回归可能会遇到的一个问题是，如果特征变量 $x_1$ （房屋大小）的取值范围是 $0\sim2000$ ，特征变量 $x_2$ 的取值范围是 $1\sim5$ （卧室数目），则画等值线图时会发现因为 $x_1，x_2$ 取值差别很大，导致 $\theta_1$ 变化很小，等值线图变成又高又瘦的椭圆，如下图

这里写图片描述

这会导致梯度下降收敛到中心最优点的速度很缓慢。为了解决这个问题，需要进行特征缩放，即将特征变量值除以其可以取到的最大值：

x 1 = 房 屋 面 积 2000

$x_1=\frac{房屋面积}{2000}$

x 2 = 卧 室 数 目 5

$x_2=\frac{卧室数目}{5}$
这样可确保让不同特征变量的取值在相近的范围内（具有可比性），等值线图变得更圆，梯度下降算法收敛更快。

进行特征缩放时，通常让每一个特征取值大概在 $-1\leqslant x_i\leqslant1$ 的范围，因为 $x_0$ 总是等于1，它也满足这个范围。但这里的范围界限 $-1和1$ 也不是绝对的，只要范围和此范围接近就行。

四.均值归一化(Mean Normalization)

除了特征缩放外，有时候也可以进行均值归一化，即以

x i \leftarrow x i - u i s i

$x_i\gets\frac{x_i-u_i}{s_i}$ 这种形式让特征值有近似于0的均值。

其中， $u_i$ 是训练数据集中 $x_i$ 的平均值， $s_i$ 是 $x_i$ 的取值范围（用 $x_i$ 的最大值减最小值）。注意这里对 $x_0$ 不适用，因为 $x_0=1$ 。

例如： $x_1=\frac{房屋面积-1000}{2000}$ ，此时 $x_1$ 就落在 $-0.5\leqslant x_1\leqslant0.5$ 这个范围。

均值归一化的目的与特征缩放一样，也是为了让梯度下降算法收敛速度更快。

五.梯度下降的两个问题

对于梯度下降 $\theta_j:=\theta_j-\alpha\frac{\partial}{\partial\theta_j}J(\theta)$ ，提出两个问题

①如何确定梯度下降是正常工作的

②如何选择学习率 $\alpha$

对于梯度下降，我们的目标是 $\displaystyle\mathop{\mathrm{min}}\limits_{\theta}J(\theta)$ 。正常情况下，每一次迭代后，代价函数 $J(\theta)$ 都减小了。我们可以画出 $J(\theta)$ 随迭代次数增加而变化的曲线图。如下图，若 $J(\theta)$ 在一定的迭代次数后趋于平坦了，则认为梯度下降收敛了。

这里写图片描述

需要注意的是，对于不同的问题，梯度下降收敛所需的迭代次数也不同。

除了可以根据如上所述的 $J(\theta)$ 随迭代次数变化曲线判断是否收敛外，还可以进行自动收敛测试，即给定一个合适的较小值 $\varepsilon$ ，如果在一次迭代后 $J(\theta)$ 减小到小于 $\varepsilon$ ，则认为梯度下降收敛了。

但这里的 $\varepsilon$ 怎样才能取得合适并不好定一个规则，故通过判断曲线图是否平坦可能更好。

除此之外，曲线图还可以给出梯度下降没有正常工作的警告。

如下图，随着迭代次数增加， $J(\theta)$ 却不断增大，这是因为学习率 $\alpha$ 太大，每次迭代后 $J(\theta)$ 都冲过了最小值，反而变得更大，这提示我们要用更小的 $\alpha$ 。

这里写图片描述

若 $J(\theta)$ 曲线图反复地下降后又上升，如下图，这也是因为学习率 $\alpha$ 较大，导致 $J(\theta)$ 可能不会每次迭代都减小，也提示要用更小的 $\alpha$ 。

这里写图片描述

总之，若 $\alpha$ 太小，则收敛太慢；若 $\alpha$ 太大，则 $J(\theta)$ 可能不会每次迭代都减小，可能无法收敛。

实际上应该尝试一系列的 $\alpha$ 值，作出 $J(\theta)$ 随迭代次数变化的曲线，找到一个可以使梯度下降较快收敛的学习率 $\alpha$ 的值。

六.特征选择和多项式回归

仍然以房价问题为例，假设房价受街道临宽(frontage)和纵向深度(depth)共同影响，则假设函数

h θ (x) = θ 0 + θ 1 * f r o n t a g e + θ 2 * d e p t h

$h_\theta(x)=\theta_0+\theta_1*frontage+\theta_2*depth$ 但实际上用房屋宽度和深度的乘积，也就是房屋大小作为特征可能更合适。我们可以创造特征变量

x=frontage∗depth $x=frontage*depth$ ，这样

hθ(x)=θ0+θ1x $h_\theta(x)=\theta_0+\theta_1x$ ，有时候通过一个新的特征，会得到一个更好的模型。

此时房价只与房屋大小(size)有关。假设有如下图所示的训练数据，为了取得较好的拟合效果，可能会想到用图中蓝线所示的二次函数去拟合，但此二次函数上升到顶点后会下降，与房价的实际情况出入较大。所以用图中绿线所示的三次函数去拟合数据可能更合适。

这里写图片描述

这时

h θ (x) = θ 0 + θ 1 x + θ 2 x 2 + θ 3 x 3

$h_\theta(x)=\theta_0+\theta_1x+\theta_2x^2+\theta_3x^3$ 称为多项式回归(Polynomial Regression)。

而对于多变量线性回归

h θ (x) = θ 0 + θ 1 x 1 + θ 2 x 2 + θ 3 x 3

$h_\theta(x)=\theta_0+\theta_1x_1+\theta_2x_2+\theta_3x_3$

可以通过设置特征变量

x 1 = (s i z e)

$x_1=(size)$

x 2 = (s i z e) 2

$x_2=(size)^2$

x 3 = (s i z e) 3

$x_3=(size)^3$ 将多项式回归和多变量线性回归联系起来。

需要注意的是，若房屋大小这个特征变量的取值范围是 $1\sim1000$ ，则新设置的特征变量的范围如下：

x 1 : 1 \sim 1000

$x_1:1\sim1000$

x 2 : 1 \sim 106

$x_2:1\sim10^6$

x 3 : 1 \sim 109

$x_3:1\sim10^9$ 这时候前面所提到的特征缩放和均值归一化就非常重要了，必须要让所有特征变量的取值范围变得有可比性。

除了多项式回归之外，还有其他设计特征的选择，如：

h θ (x) = θ 0 + θ 1 x + θ 2 x \sqrt

$h_\theta(x)=\theta_0+\theta_1x+\theta_2\sqrt{x}$ 只要能够通过设计不同的特征，取得更好的拟合效果就行。

七.正规方程(Normal Equation)

正规方程提供了一种可以一次性求解最优 $\theta$ 值的解析方法。

①对于单变量（特征）线性回归， $\theta\in\mathbb{R}$ ，为了求解 $\displaystyle\mathop{\mathrm{min}}\limits_{\theta}J(\theta)$ ，需要

令 d d θ J (θ) = 0 ， 解 出 θ 的 值

$令\frac{\rm d}{\rm d\theta}J(\theta)=0，解出\theta的值$

②对于多变量（特征）情况， $\theta\in\mathbb{R}^{n+1}$ ， $\theta_j:=\theta_j-\alpha\frac{\partial}{\partial\theta_j}J(\theta)$ ，为了求解 $\displaystyle\mathop{\mathrm{min}}\limits_{\theta}$ ，需要

对 每 一 个 j ， 令 \partial \partial θ j J (θ) = 0 ， 解 出 θ 0, θ 1, \dots, θ n 的 值

$对每一个j，令\frac{\partial}{\partial\theta_j}J(\theta)=0，解出\theta_0,\theta_1,\cdots,\theta_n的值$
然而，这种偏导计算可能很复杂。

若给定了 $m$ 组训练数据 $(x^{(1)},y^{(1)}),(x^{(2)},y^{(2)}),\cdots,(x^{(m)},y^{(m)})$ 以及特征变量的数目 $n$ ，则每组训练数据的输入实际上都是一个 $n+1$ 维向量（包含了始终为1的 $x_0$ ）

x (i) = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ x (i) 0 x (i) 1 x (i) 2 ⋮ x (i) n ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ \in R n + 1

$x^{(i)}=\begin{bmatrix}x_0^{(i)}\\x_1^{(i)}\\x_2^{(i)}\\\vdots\\x_n^{(i)}\end{bmatrix}\in\mathbb{R}^{n+1}$ 定义一个

m∗(n+1) $m*(n+1)$ 维的设计矩阵

X = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ (x (1)) T (x (2)) T ⋮ (x (m)) T ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ \in R m * (n + 1)

$X=\begin{bmatrix}(x^{(1)})^T\\(x^{(2)})^T\\\vdots\\(x^{(m)})^T\end{bmatrix}\in\mathbb{R}^{m*(n+1)}$

m $m$ 组训练数据的输出构成一个

m $m$ 维向量

y = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ y (1) y (2) ⋮ y (n) ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ \in R m

$y=\begin{bmatrix}y^{(1)}\\y^{(2)}\\\vdots\\y^{(n)}\end{bmatrix}\in\mathbb{R}^{m}$ 正规方程法给出的求解

minθJ(θ) $\displaystyle\mathop{\mathrm{min}}\limits_{\theta}J(\theta)$ 的公式是

θ = (X T X) - 1 X T y

$\theta=(X^TX)^{-1}X^Ty$ 另外，使用正规方程法时不需要归一化特征变量。

对比梯度下降法和正规方程法求解 $\theta$ ，梯度下降法的劣势是需要选择学习率 $\alpha$ ，需要多次迭代，而正规方程法不需要。但这不意味着正规方程法就优于梯度下降，正规方程法需要计算 $(X^TX)^{-1}$ ，当特征变量的数目 $n$ 很大时， $X^TX$ 是 $(n+1)*(n+1)$ 维矩阵，对该矩阵求逆计算量巨大，复杂度大致是 $O(n^3)$ ，此时用梯度下降发反而更合适。