机器学习之多个特征下的梯度下降和正态方程解析

最新推荐文章于 2021-11-28 21:25:08 发布

爷灬傲奈我何

最新推荐文章于 2021-11-28 21:25:08 发布

阅读量704

点赞数

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.youkuaiyun.com/qq_19070475/article/details/110653546

版权

机器学习专栏收录该内容

5 篇文章

订阅专栏

机器学习之多个特征下的梯度下降和正态方程解析

多重特征
多个变量的梯度下降
- 练习I中的梯度下降-特征缩放
- 练习II中的梯度下降-学习率
特征和多项式回归
正态方程
- 正规方程不可逆

多重特征

具有多个变量的线性回归也称为“多元线性回归”。

现在我们为方程式引入符号，其中可以有任意数量的输入变量。
$\begin{aligned} x_j^{(i)} &= value\,of\,feature\,j\,in\,the\,i^{th}\,training\,example \\ x^{(i)} &= the\,input\,(features)\,of\,the\,i^{th}\,training\,example \\ m &= the\,number\,of\,training\,examples\\ n &= the\,number\,of\,features \end{aligned}$
容纳这些多个特征的假设函数的多元形式如下：
$H_\theta(x)=\theta_0+\theta_1X_1+\theta_2X_2+\theta_3X_3+\cdots+\theta_{{n}}X_{{n}}$
为了开发有关此功能的直觉，我们可以考虑 $\theta_0$ 作为房屋的基本价格， $\theta_1$ 作为每平方米的价格， $\theta_2$ 如每层价格等 $X_1$ 将是房屋的平方米数， $X_2$ 是楼层数等

使用矩阵乘法的定义，我们的多变量假设函数可以简明表示为：
$=[\theta_0\qquad\theta_1\qquad\cdots\qquad\theta_{{n}}]\begin{bmatrix} X_0\\X_1\\\vdots\\X_{{n}} \end{bmatrix}=\theta^{{T}}X$
这是一个训练示例的假设函数的向量化

备注：请注意，为方便起见，在机器学习中我们假设 $x_ {0}^{(i)} = 1 \,for\,(i \in {1，\dots，m})$ 这使我们能够对 $\theta$ 和X进行矩阵运算。因此，使两个向量 $\theta$ 和 $X^ {(i)}$ 逐个匹配。

多个变量的梯度下降

梯度下降方程本身通常是相同的形式。我们只需要针对n个特征重复此操作：
$\begin{aligned} repeat \,until\,convergence:\{\\ \theta_0 &:= \theta_0 - \alpha\frac{1}{m}\sum_{i=1}^m(h_\theta(x^{(i)}-y^{(i)})\cdot x_0^{(i)}) \\ \theta_1 &:= \theta_1 - \alpha\frac{1}{m}\sum_{i=1}^m(h_\theta(x^{(i)}-y^{(i)})\cdot x_1^{(i)}) \\ \theta_2 &:= \theta_2 - \alpha\frac{1}{m}\sum_{i=1}^m(h_\theta(x^{(i)}-y^{(i)})\cdot x_2^{(i)}) \\ \dots \} \end{aligned}$
换一种说法：
$\begin{aligned} repeat \,until\,convergence:\{\\ \theta_j &:= \theta_j - \alpha\frac{1}{m}\sum_{i=1}^m(h_\theta(x^{(i)}-y^{(i)})\cdot x_j^{(i)}) \qquad for\,j:=0\dots n\\ \} \end{aligned}$
下图将具有一个变量的梯度下降与具有多个变量的梯度下降进行比较：
在这里插入图片描述

练习I中的梯度下降-特征缩放

我们可以通过将每个输入值设置在大致相同的范围内来加快梯度下降的速度。这是因为θ在小范围内会迅速下降，而在大范围内会缓慢下降，因此当变量非常不均匀时，会无效率地振荡到最佳状态。

防止这种情况的方法是修改输入变量的范围，以使它们都大致相同。理想情况下：
$-1\leq x_{(i)}\leq1\\ or \\ -0.5\leq x_{(i)}\leq 0.5$
这些不是确切的要求；我们只是试图加快速度。目标是使所有输入变量大致进入这些范围之一，给出或取几个。

有助于此的两种技术是特征缩放和均值归一化。特征缩放涉及将输入值除以输入变量的范围（即最大值减去最小值），从而得到的新范围仅为1。请按照以下公式调整输入值：
$x_i:=\frac{x_i-\mu_i}{s_i}$
$\mu_i$ 是特征（i）的所有值的平均值，并且 $s_i$ 是值的范围（最大值-最小值），或 $s_i$ 是标准偏差。

请注意，除以范围或除以标准偏差会得出不同的结果。测验使用标准偏差。

例如，如果 $x_i$ 表示价格范围为100至2000，平均值为1000的房价， $x_i:=\frac{price - 1000}{1900}$

练习II中的梯度下降-学习率

调试梯度下降。绘制一个在x轴上具有迭代次数的图。现在在梯度下降的迭代次数上绘制成本函数J(θ)。如果J(θ)增大，则可能需要减小 $\alpha$ 。

自动收敛测试。如果在一次迭代中J(θ)的减小量小于E，则声明收敛，其中E是一些小值，例如 $10^{−3}$ 。但是，实际上很难选择此阈值。
在这里插入图片描述
已经证明，如果学习率α足够小，则J(θ)将在每次迭代中减小。

总结一下：

如果 $\alpha$ 太小：收敛缓慢。

如果 $\alpha$ 太大：可能不会在每次迭代中都减小，因此可能不会收敛。

特征和多项式回归

我们可以通过几种不同的方式来改进我们的特征和假设函数的形式。

我们可以将多个功能组合为一个。例如，我们可以结合 $x_1$ 和 $x_2$ 变成特征 $x_3$ 通过采取 $x_1\cdot x_2.$

多项式回归
如果我们的假设函数不太适合数据，则不必是线性的（直线）。

我们可以通过将其设为二次，三次或平方根函数（或任何其他形式）来更改假设函数的行为或曲线。

例如，如果我们的假设函数是 $h_\theta(x)=\theta_0+\theta_1x_1$ 然后我们可以基于 $x_1$ ，得到二次函数 $h_\theta(x)=\theta_0+\theta_1x_1+\theta_2x_1^2$ 或三次函数 $h_\theta(x)=\theta_0+\theta_1x_1+\theta_2x_1^2+\theta_3x_1^3$
在三次版本中，我们创建了新变量 $x_2$ 和 $x_3$ ， $x_2=x_1^2\,and\,x_3=x_1^3$
要使其平方根函数，我们可以这样做： $h_\theta(x)=\theta_0+\theta_1x_1+\theta_2\sqrt{x_1}$

要记住的一件事是，如果以这种方式选择要素，则要素缩放变得非常重要。

例如。如果 $x_1$ 范围为1-1000，则范围为 $x_1 ^ 2$ 变成1-1000000，而 $x_1 ^ 3$ 变成1-1000000000

正态方程

梯度下降提供了一种最小化 $J$ 的方法。让我们讨论这样做的第二种方法，这一次显式地执行最小化，而不求助于迭代算法。在“正态方程”方法中，我们将通过明确地针对 $θ_j$ 取导数并将其设置为零来最小化 $J$ 。这使我们无需迭代即可找到最佳 $\theta$ 。正态方程公式如下：
$\theta=(X^TX)^{-1}X^Ty$
在这里插入图片描述
用正态方程的话就没必要使用特征缩放。