机器学习笔记——线性回归

线性回归详解

最新推荐文章于 2024-03-31 23:30:16 发布

原创最新推荐文章于 2024-03-31 23:30:16 发布 · 545 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习-线性回归 #线性回归 #吴恩达机器学习

machine learning 专栏收录该内容

2 篇文章

订阅专栏

机器学习笔记——线性回归

学习资源：斯坦福机器学习公开课 by Andrew Ng

0 符号说明

$\boldsymbol m$ ：训练样本个数
$\boldsymbol n$ ：样本的特征个数（特征的维度），这里先取 $n=1$
$h_\theta(x)$ ：假设函数， $h_\theta(x)=\theta_0+\theta_1x$
$J(\theta_0,\theta_1)$ ：损失函数， $J(\theta_0,\theta_1)=\frac{1}{2m}\sum\limits_{i=1}^m(h_\theta(x^{(i)})-y^{(i)})^2$

故， $x_j^{(i)}$ 表示第 $i$ 个样本的第 $j$ 个特征值， $(x^{(i)},y^{(i)})$ 为第 $i$ 个训练样例。

1 初识线性回归

这里使用 andrew Ng 老师的课件示例，先从单一特征开始

通过房子的面积和已知的售出价格，找到对应面积的最佳出售价格，训练样本见下表：

Size in feet2 (x)	Price ($) in 1000’s (y)
2104	460
1416	232
1534	315
852	178
…	…

这个训练样本描出来结果如下图所示

我们希望通过这些样本，回归出一条预测曲线，如下图所示。如何保证这条线是我们需要的预测函数，引出损失函数。

损失函数： $J_\theta(x)=\frac{1}{2m}\sum\limits_{i=1}^{m}(h_\theta(x^{(i)})-y^{(i)})^2$

损失函数其目的：保证假设函数对应的预测值和实际值差值平方和最小。这样就能找到满足需求的 $h_\theta(x)$ ，也就是我们的预测函数（预测直线）。

2 将样本特征扩展到多维

泛化考虑，给定数据集为 $D=(x_1,y_1),(x_2,y_2),(x_3,y_3),\cdots,(x_n,y_n)$ ，其中每一个样本 $x^{(i)}$ 都有n个特征（n维特征）。考虑用线性回归建立一个线性模型，针对每一个样本 $x^{(i)}$ ，假设 $x_0^{(i)}=1$ ，则

h (x (i)) = θ 0 + θ 1 x (i) 1 + θ 2 x (i) 2 + \dots + θ n x (i) n = θ T x (i)

$h(x^{(i)})=\theta_0+\theta_1x_1^{(i)}+\theta_2x_2^{(i)}+\cdots+\theta_nx_n^{(i)}=\theta^Tx^{(i)}$
损失函数同之前

Jθ(x)Jθ(x) $J_{\theta} (x)$ 的一样。

令 $X=\begin{bmatrix}1&x_1^{(1)}&\cdots&x_n^{(1)}\\ 1&x_1^{(2)}&\cdots&x_n^{(2)}\\ \vdots&\vdots&\cdots&\vdots\\ 1&x_1^{(m)}&\cdots&x_n^{(m)}\end{bmatrix}$ ， $\theta=\begin{bmatrix}\theta_0\\ \theta_1\\\vdots\\\theta_n\end{bmatrix}$ ， $\vec{y}=\begin{bmatrix}y_0\\ y_1\\\vdots\\y_n\end{bmatrix}$ 。

则，损失函数可以表示为：

J θ (x) = 1 2 m \sum i = 1 m (h θ (x (i)) - y (i)) 2 = 1 2 m (X θ - y ⃗) T (X θ - y ⃗)

$J_\theta(x)=\frac{1}{2m}\sum\limits_{i=1}^{m}(h_\theta(x^{(i)})-y^{(i)})^2=\frac{1}{2m}(X\theta-\vec{y})^T(X\theta-\vec{y})$

3 如何最小化 $\boldsymbol J_{\theta}(x)$ -梯度下降法

简述：利用求导数的思想，寻找斜率方向（梯度反方向）的极值点，每迭代一次找到一个极值点（极小值），直到损失函数不在继续变小（变小的范围在可接受的阈值范围内）。

如下图所示，下图为只有一个特征的情况，损失函数应用梯度下降算法后J的变化

回忆之前的单一特征的线性回归模型

$h_{\theta}(x) = \theta_0+\theta_1x$

$J_\theta(x)=\frac{1}{2m}\sum\limits_{i=1}^{m}(h_\theta(x^{(i)})-y^{(i)})^2$

对 $J(\theta)$ 进行求导，可得

$\frac{\partial}{\partial\theta_0}J(\theta_0,\theta_1) = \frac{1}{m}\sum\limits_{i=1}^{m}(h_\theta(x^{(i)})-y^{(i)})$

$\frac{\partial}{\partial\theta_1}J(\theta_0,\theta_1) = \frac{1}{m}\sum\limits_{i=1}^{m}(h_\theta(x^{(i)})-y^{(i)})x^{(i)}$

则可以开始迭代了，直到 $\theta$ 变化极小为止

$\theta_0:=\theta_0-\frac{1}{m}\sum\limits_{i=1}^{m}(h_\theta(x^{(i)})-y^{(i)})$

$\theta_1:=\theta_1-\frac{1}{m}\sum\limits_{i=1}^{m}(h_\theta(x^{(i)})-y^{(i)})x^{(i)}$

设学习率为 $\alpha$ ，则算法描述为：

$temp0 := \theta_0 -\alpha\frac{\partial}{\partial\theta_0}J(\theta_0,\theta_1) \\ temp1 := \theta_1 -\alpha\frac{\partial}{\partial\theta_1}J(\theta_0,\theta_1) \\\theta_0:=temp_0\\\theta_1:=temp_1$

MATLAB代码如下：

m = length(y);
J = zeros(m, 1);

for iter = 1 : num_iters
    J = X * theta - y;
    temp1 = theta(1) - alpha * (1/m) * sum(J .* X(:, 1));
    temp2 = theta(2) - alpha * (1/m) * sum(J .* X(:, 2));
    theta(1) = temp1;
    theta(2) = temp2;
end

将其泛化：

$\theta_j:=\theta_j-\frac{\alpha}{m}\sum\limits_{i=1}^{m}(h_\theta(x_j^{(i)})-y^{(i)})x_j^{(i)}\\\theta_j:=\theta_j-\frac{\alpha}{m}\sum\limits_{i=1}^{m}x_j^{(i)}(h_\theta(x_j^{(i)})-y^{(i)})$

由前面X的定义，对上式进行向量化：

$\theta:=\theta-\frac{\alpha}{m}X^T(X\theta-\vec{y})$

则前面的代码可以简化，同时多维特征下面这种方法也适用：

m = length(y);
J_history = zeros(num_iters, 1);

for iter = 1 : num_iters
    theta = theta - alpha / m * X' * (X * theta - y);
end

4 Normal Equation

对于特征维数不多的情况下，用正规方程求解更迅速。推导如下：
损失函数： $J_\theta(x)=\frac{1}{2m}\sum\limits_{i=1}^{m}(h_\theta(x^{(i)})-y^{(i)})^2$

向量化化简： $J_\theta(x)=\frac{1}{2m}(X\theta-\vec{y})^T(X\theta-\vec{y})$

由于是求导取极值，则系数可以省去，故上式可继续化简：

J (θ) = 1 2 (X θ - y ⃗) T (X θ - y ⃗) J (θ) = 1 2 (θ T X T X θ - θ T X T y - y T X θ - y T y)

$J(\theta)=\frac{1}{2}(X\theta-\vec{y})^T(X\theta-\vec{y})\\J(\theta)=\frac{1}{2}(\theta^TX^TX\theta-\theta^TX^Ty-y^TX\theta-y^Ty)$

则， $\frac{\partial}{\partial\theta}J(\theta)$ 化简为

参考该图：

\partial \partial θ J (θ) = X T X θ - X T y = 0

$\frac{\partial}{\partial\theta}J(\theta)=X^TX\theta-X^Ty=0$

则找到对应最小值的J： $\theta=(X^TX)^{-1}X^Ty$

matlab代码见下：

theta = pinv( X' * X ) * X' * y;

5 特征归一化

Idea: Make sure features are on a similar scale.

如何实现，对于某一个特征： $x_i=\frac{x_i-u_i}{\delta_i}$

其中， $u$ 为均值， $\delta$ 为标准差。一般保证范围在 $-1\le x_i\le 1$ 附近。

除了这些，分母也可以用最值差。

6 学习率和多项式回归

学习率 $\alpha$ 一般保证合理的范围。下面给出了一个设定的参考范围。

$\cdots,0.001,\cdots,0.01,\cdots,0.1,\cdots,1,\cdots$

一般先扫面几个段的效果，然后以三倍的倍数进行递增。

多项式回归如下式所示

$h_\theta(x)=\theta_0+\theta_1x+\theta_2x^2$

如果无法收敛，需要注意形式，如上式可以改成下式

$h_\theta(x)=\theta_0+\theta_1x+\theta_2\sqrt{x}$

机器学习笔记——线性回归

机器学习笔记——线性回归

0 符号说明

1 初识线性回归

2 将样本特征扩展到多维

3 如何最小化Jθ(x)Jθ(x)\boldsymbol J_{\theta}(x)-梯度下降法

4 Normal Equation

5 特征归一化

6 学习率和多项式回归

3 如何最小化 $\boldsymbol J_{\theta}(x)$ -梯度下降法