吴恩达机器学习笔记（二）

最新推荐文章于 2025-04-14 20:44:57 发布

原创最新推荐文章于 2025-04-14 20:44:57 发布 · 199 阅读

0 ·

CC 4.0 BY-SA版权

机器学习专栏收录该内容

5 篇文章

订阅专栏

1 线性代数回顾

1.1 矩阵和向量

1、矩阵：由 $m×n{m\times n}$ 个数组成的m行n列的数矩形阵表。

矩阵 $\left[ \begin{array} { c c } { 1402 } & { 191 } \\ { 1371 } & { 821 } \\ { 949 } & { 1437 } \\ { 147 } & { 1448 } \end{array} \right]$ 是一个4行2列的矩阵，可以表示为 $R4×2\mathbb{R} ^ { 4 \times 2 }$ ，矩阵的维数为 $m×n{m\times n}$ 。 $A _ { i j }$ 代表矩阵的第 $i$ 行第 $j$ 列的元素。

在这里插入图片描述

2、向量：向量是一种特殊的矩阵，在这里的向量默认为列向量。 $\left[ \begin{array} { c } { 460 } \\ { 232 } \\ { 315 } \\ { 178 } \end{array} \right]$ 为4维列向量 $(4×1)(4\times 1)$ 。

1.2 矩阵加法和矩阵与标量的乘法

1、矩阵的加法：矩阵相加，要求行数跟列数都相同，矩阵之间对应位置元素相加。

$[abcd]+[wxyz]=[a+wb+xc+yd+z]\left[ \begin{array} { l l } { a } & { b } \\ { c } & { d } \end{array} \right] + \left[ \begin{array} { l l } { w } & { x } \\ { y } & { z } \end{array} \right] = \left[ \begin{array} { l l } { a + w } & { b + x } \\ { c + y } & { d + z } \end{array} \right]$

例： $[102531]+[4052501]=[50541032]\left[ \begin{array} { l l } { 1 } & { 0 } \\ { 2 } & { 5 } \\ { 3 } & { 1 } \end{array} \right] + \left[ \begin{array} { l l } { 4 } & { 05 } \\ { 2 } & { 5 } \\ { 0 } & { 1 } \end{array} \right] = \left[ \begin{array} { c c } { 5 } & { 05 } \\ { 4 } & { 10 } \\ { 3 } & { 2 } \end{array} \right]$

在这里插入图片描述

2、矩阵与标量的乘法：矩阵中每个元素都与标量相乘。

$[abcd]∗x=[a∗xb∗xc∗xd∗x]\left[ \begin{array} { l l } { a } & { b } \\ { c } & { d } \end{array} \right] * x = \left[ \begin{array} { l l } { a * x } & { b * x } \\ { c * x } & { d * x } \end{array} \right]$

例： $\times \left[ \begin{array} { l l } { 1 } & { 0 } \\ { 2 } & { 5 } \\ { 3 } & { 1 } \end{array} \right] = \left[ \begin{array} { l l } { 3 } & { 0 } \\ { 6 } & { 15 } \\ { 9 } & { 3 } \end{array} \right] = \left[ \begin{array} { c c } { 1 } & { 0 } \\ { 2 } & { 5 } \\ { 3 } & { 1 } \end{array} \right] \times 3$

在这里插入图片描述

解析：题中所有元素都乘2便得到正确结果。

3、组合算法：按照顺序从左到右计算。

在这里插入图片描述

解析：先计算 $[467]/2\left[ \begin{array} { l } { 4 } \\ { 6 } \\ { 7 } \end{array} \right] / 2$ ，得到 $[233.5]\left[ \begin{array} { l } { 2 } \\ { 3 } \\ { 3.5 } \end{array} \right]$ ，然后计算 $3[210]3\left[ \begin{array} { l } { 2 } \\ { 1 } \\ { 0 } \end{array} \right]$ ,得到 $[630]\left[ \begin{array} { l } { 6 } \\ { 3 } \\ { 0 } \end{array} \right]$ ，两者相减得到第三个选项。

1.3 矩阵和向量相乘

矩阵和向量相乘：后者的行数要等于前者的列数，也就是一个 $m×nm\times n$ 的矩阵乘 $n×1n\times 1$ 的向量，得到的结果是一个 $m×1m\times 1$ 的向量。

$[abcdef]∗[xy]=[a∗x+b∗yc∗x+d∗ye∗x+f∗y]\left[ \begin{array} { l l } { a } & { b } \\ { c } & { d } \\ { e } & { f } \end{array} \right] * \left[ \begin{array} { l } { x } \\ { y } \end{array} \right] = \left[ \begin{array} { c } { a * x + b * y } \\ { c * x + d * y } \\ { e * x + f * y } \end{array} \right]$

在这里插入图片描述

解析：矩阵是 $3×43\times 4$ 的矩阵，向量是 $4×14\times 1$ 的维度，两者相乘得到 $3×13\times 1$ 的新矩阵。

在这里插入图片描述

解析： $[103215312]×[162]=[1×1+0×6+3×22×1+1×6+5×23×1+1×6+2×2]=[71813]\left[ \begin{array} { l l l } { 1 } & { 0 } & { 3 } \\ { 2 } & { 1 } & { 5 } \\ { 3 } & { 1 } & { 2 } \end{array} \right] \times \left[ \begin{array} { l } { 1 } \\ { 6 } \\ { 2 } \end{array} \right]=\left[ \begin{array} { l l l } { 1\times 1+0\times 6+3\times 2 } \\ { 2\times 1+1\times 6+5 \times 2} \\ { 3\times 1+1\times 6+2 \times 2 } \end{array} \right] =\left[ \begin{array} { l } { 7 } \\ { 18 } \\ { 13 } \end{array} \right]$

1.4 矩阵相乘

两个矩阵相乘：前一个矩阵的列数必须跟后一个矩阵的行数相同才能进行矩阵之间的乘法。也就是一个 $m×nm\times n$ 的矩阵乘 $n×kn\times k$ 的向量，得到的结果是一个 $m×km\times k$ 的向量。

$[abcdef]∗[wxyz]=[a∗w+b∗ya∗x+b∗zc∗w+d∗yc∗x+d∗ze∗w+f∗ye∗x+f∗z]\left[ \begin{array} { l l } { a } & { b } \\ { c } & { d } \\ { e } & { f } \end{array} \right] * \left[ \begin{array} { c c } { w } & { x } \\ { y } & { z } \end{array} \right] = \left[ \begin{array} { c c } { a * w + b * y } & { a * x + b * z } \\ { c * w + d * y } & { c * x + d * z } \\ { e * w + f * y } & { e * x + f * z } \end{array} \right]$

在这里插入图片描述

解析： $[132405][1023]=[1×1+3×21×0+3×32×1+4×22×0+4×30×1+5×20×0+5×3]=[7910121015]\left[ \begin{array} { l l } { 1 } & { 3 } \\ { 2 } & { 4 } \\ { 0 } & { 5 } \end{array} \right] \left[ \begin{array} { l l } { 1 } & { 0 } \\ { 2 } & { 3 } \end{array} \right] =\left[ \begin{array} { l l l } { 1\times 1+3\times 2 } &{1\times 0+3\times 3} \\ { 2\times 1+4\times 2 } &{2\times 0+4\times 3} \\ { 0\times 1+5\times 2 } &{0\times 0+5\times 3}\end{array} \right] = \left[ \begin{array} { l l } { 7 } & { 9 } \\ { 10 } & { 12 } \\ { 10 } & { 15 } \end{array} \right]$

1.5 矩阵乘法的性质

1、矩阵乘法的性质：

矩阵的乘法不满足交换律： $\times B \neq B \times A$
矩阵的乘法满足结合律： $\times ( B \times C ) = ( A \times B ) \times C$

2、单位矩阵：除对角线外其余元素都为0，且从左上角到右下角的对角线元素均为1的方阵。通常用 $I$ 或 $E$ 表示， $\times n }$ 表示矩阵为 $n×nn\times n$ 的单位矩阵。例如 $[100010001]\left[ \begin{array} { l l l } { 1 } & { 0 } & { 0 } \\ { 0 } & { 1 } & { 0 } \\ { 0 } & { 0 } & { 1 } \end{array} \right]$ 为 $3×33\times 3$ 的单位矩阵。

单位矩阵在矩阵乘法中同平常数的乘法的1，对于单位矩阵，有 $A I = I A = A$ 。

在这里插入图片描述

解析：单位矩阵乘矩阵的结果为该矩阵本身。

1.6 矩阵的逆和转置

1、矩阵的逆：如果一个矩阵 $A$ 为 $m×mm\times m$ 的方阵且有逆矩阵，则有 $A A ^ { - 1 } = A ^ { - 1 } A = I$ 。 $A ^ { - 1 }$ 被记为矩阵的逆。

2、矩阵的转置：已知 $A$ 为 $m×nm\times n$ 阶矩阵，将矩阵 $A$ 的 $A (i, j)$ 元素的值跟 $A (j, i)$ 元素的值对调，形成的新的矩阵 $B$ 称为矩阵 $A$ 的转置，记作 $A ^ { T }$ 。

$\left[ \begin{array} { l l } { a } & { b } \\ { c } & { d } \\ { e } & { f } \end{array} \right],A ^ { T } = \left[ \begin{array} { l l l } { a } & { c } & { e } \\ { b } & { d } & { f } \end{array} \right]$

在这里插入图片描述

3、矩阵转置的性质：

$\pm B ) ^ { T } = A ^ { T } \pm B ^ { T }$

$\times B ) ^ { T } = B ^ { T } \times A ^ { T }$

$(AT)T=A\left( A ^ { T } \right) ^ { T } = A$

$K A ) ^ { T } = K A ^ { T }$

2 多变量线性回归

2.1 多维特征

前面学习了单个特征的模型，在实际中，更多的是有多个特征的一些数据，我们要构建多个变量的模型，模型中的特征为 $(x1,x1,…,xn)\left( x _ { 1 } , x _ { 1 } , \ldots , x _ { n } \right)$ 。

在这里插入图片描述

上面图片中圈出来的一行为一个样本的一组特征值，添加了多个特征后，引进一些新的标注：

$\begin{aligned} x _ { j } ^ { ( i ) } & = \text { value of feature } j \text { in the } i ^ { t h } \text { training example } \\ x ^ { ( i ) } & = \text { the input (features) of the } i ^ { t h } \text { training example } \\ m & = \text { the number of training examples } \\ n & = \text { the number of features } \end{aligned}$

$x _ { j } ^ { ( i ) }$ 表示第 $i$ 个样本的第 $j$ 个特征的值，比如上图中 $x _ { 2 } ^ { ( 2 ) } = 3 , x _ { 3 } ^ { ( 2 ) } = 2$ 。

在这里插入图片描述

解析： $x _ { 1 } ^ { ( 4 ) }$ 代表第4个样本的第1个特征。

支持多个变量的假设 $h$ 我们定义为： $\theta } ( x ) = \theta _ { 0 } + \theta _ { 1 } x _ { 1 } + \theta _ { 2 } x _ { 2 } + \theta _ { 3 } x _ { 3 } + \cdots + \theta _ { n } x _ { n }$

原来定义的假设函数 $h$ 有 $n + 1$ 个参数和 $n$ 个变量，为了计算方便，引进 $x _ { 0 } = 1$ ，则公式转换为 $\theta } ( x ) = \theta _ { 0 } x _ { 0 } + \theta _ { 1 } x _ { 1 } + \theta _ { 2 } x _ { 2 } + \ldots + \theta _ { n } x _ { n }$ ，根据矩阵乘法，假设函数 $h$ 可以表示为：

$\theta } ( x ) = \left[ \begin{array} { c c c c } { \theta _ { 0 } } & { \theta _ { 1 } } & { \dots } & { \theta _ { n } } \end{array} \right] \left[ \begin{array} { c } { x _ { 0 } } \\ { x _ { 1 } } \\ { \vdots } \\ { x _ { n } } \end{array} \right] = \theta ^ { T } x$

上面也称为假设函数的矢量化。

2.2 多变量梯度下降

跟单变量梯度下降相似，多变量梯度下降同样构建一个代价函数 $\left( \theta _ { 0 } , \theta _ { 1 } , \ldots , \theta _ { n } \right) = \frac { 1 } { 2 m } \sum _ { i = 1 } ^ { m } \left( h _ { \theta } \left( x ^ { ( i ) } \right) - y ^ { ( i ) } \right) ^ { 2 }$ ，其中 $\theta } ( x ) = \theta _ { 0 } x _ { 0 } + \theta _ { 1 } x _ { 1 } + \theta _ { 2 } x _ { 2 } + \ldots + \theta _ { n } x _ { n }$ ，目标同样是找到使得代价函数的值最小的参数组合：

Repeat ${\{$
$θj:=θj−α∂∂θjJ(θ0,…,θn)\theta _ { j } : = \theta _ { j } - \alpha \frac { \partial } { \partial \theta _ { j } } J \left( \theta _ { 0 } , \ldots , \theta _ { n } \right)$
(simultaneously update for every $\ldots , n )$

$}\}$

在这里插入图片描述

根据之前的单变量梯度下降，通过多次迭代计算代价函数直至收敛，可得：

$j=0,1,…,n)}\begin{array} { l } { \text { Repeat } \{ } \\ { \theta _ { j } : = \theta _ { j } - \alpha \frac { 1 } { m } \sum _ { i = 1 } ^ { m } \left( \left( h _ { \theta } \left( x ^ { ( i ) } \right) - y ^ { ( i ) } \right) \cdot x _ { j } ^ { ( i ) } \right) } \\ { \left( \text { simultaneously update } \theta _ { j } \right. } \\ { \text { for } j = 0,1 , \ldots , n ) } \\ { \} } \end{array}$

在这里插入图片描述

在上图， $x _ { 0 } ^ { ( i ) }=1$ 。通过选取一系列的参数值，计算预测结果后，再给出新的一组参数，不断循环直至收敛，得到最终结果。

2.3 梯度下降之特征缩放

面对多维特征的问题时，特征之间尺度范围太大会导致 $θ\theta$ 下降速度缓慢，而且如果变量非常不均匀，可能会一直振荡却达不到有效的最小值。为了防止这个问题，我们可以通过使每个输入值在大致相同的范围内来加速梯度下降，理想的情况是： $\leq x ( i ) \leq 1$ 或者 $\leq x _ { ( i ) } \leq 0.5$ 。

我们可以通过两种方法来达到让每个输入值都在大致相同的范围：特征缩放和均值归一化。

特征缩放：输入值除以输入变量的范围（即最大值减去最小值），经过特征缩放后的变量的范围为 $\leq x ( i ) \leq 1$ ，特征缩放的公式为 $\frac { x _ { i }} { s _ { i } }$ ，其中 $Si=xmax−xmin\mathcal { S } _ { i }=x_{max}-x_{min}$ 或者标准差。

均值归一化：输入值减去输入变量的平均值后除以输入变量的标准差，经过均值归一化后变量的范围为 $\leq x _ { ( i ) } \leq 0.5$ ，均值归一化的公式为 $\frac { x _ { i } - \mu _ { i } } { s _ { i } }$ ，其中 $μi\mu _ { i }$ 是输入变量的平均值， $Si\mathcal { S } _ { i }$ 是输入变量的方差或者输入的范围。

要注意的是，特征缩放不需要在 $x_0$ 使用，因为 $x_0=1$ 。

在这里插入图片描述

解析：题中给出了平均值为38，年龄范围为30-50，因此年龄的范围为20，根据公式 $\frac { x _ { i } - \mu _ { i } } { s _ { i } }$ 可以得到选项4是正确的。

2.4 梯度下降之学习率

梯度下降算法收敛所需要的迭代次数根据模型的不同而不同，我们不能提前预知，我们可以绘制迭代次数和代价函数的图表来观测算法在何时趋于收敛。

在这里插入图片描述

也有一些自动测试是否收敛的方法，例如将代价函数的变化值与某个阀值（例如 0.001）进行比较，但通常看上面的图表更好。

在这里插入图片描述

梯度下降算法的每次迭代受到学习率的影响，如果学习率 $α\alpha$ 过小，则达到收敛所需的迭代次数会非常高；如果学习率 $α\alpha$ 过大，每次迭代可能不会减小代价函数，可能会越过局部最小值导致无法收敛。

在这里插入图片描述

2.5 特征和多项式回归

我们在确定数学模型的时候可以通过几种不同的方式改进我们的特征和假设函数的形式，比如取 $x1 \cdot x _ { 2 }$ 将 $x _ { 1 }$ 和 $x _ { 2 }$ 组合成新的特征 $x _ { 3 }$ 。

比如下面的例子，在房屋预测问题中，我们将临街宽度和深度相乘得到房屋的占地面积，这是一个新的变量。

在这里插入图片描述

但是线性回归并不适用于所有数据，有时我们需要曲线来适应我们的数据，比如用变量的平方或者变量的三次方来创建模型，也就是多项式回归模型。

在这里插入图片描述

可以看到，有些曲线的拟合效果比线性模型的要好，在决定用什么模型时，需要观察数据。另外，也可以令 $x _ { 2 } = x _ { 2 } ^ { 2 } , x _ { 3 } = x _ { 3 } ^ { 3 }$ ，这样模型就转化为线性模型了。

有一点要注意的是，如果采用多项式回归模型，可以根据上图看到数据范围更加庞大，所以用多项式回归模型的时候，特征缩放是很有必要的。

在这里插入图片描述

2.6 正规方程

前面的梯度下降给出了一种最小化代价函数的方法，而正规方程是第二种最小化代价函数的方法，不同于梯度下降算法的迭代算法，正规方程是通过将代价函数 $\theta )$ 对我们要求的参数 $θ\theta$ 求导，并将它们设置为零后求得参数值。在这里 $X$ 为训练样本特征矩阵， $y$ 为训练集结果向量。

根据 $\theta ) = \frac { 1 } { 2 m } \sum _ { i = 1 } ^ { m } \left( h _ { \theta } \left( x ^ { ( i ) } \right) - y ^ { ( i ) } \right) ^ { 2 }$ 和 $\theta } ( x ) = \theta ^ { T } X= X\theta$ ，我们对 $θ\theta$ 进行求导：

$∂∂θjJ(θj)=1mXT(Xθ−y)=0\frac { \partial } { \partial \theta _ { j } } J \left( \theta _ { j } \right) =\frac { 1 } { m }X^T\left(X\theta -y\right)=0$

$Xθ−y=0X\theta -y=0$

$Xθ=yX\theta=y$

$XTXθ=XTyX^TX\theta=X^Ty$

$(XTX)−1XTXθ=(XTX)−1XTy(X^TX)^{-1}X^TX\theta=(X^TX)^{-1}X^Ty$

$θ=(XTX)−1XTy\theta = \left( X ^ { T } X \right) ^ { - 1 } X ^ { T } y$

在这里插入图片描述

$θ=([11112104141615348525332122145403036]×[12104514511416324011534323018522136])−1×[11112104141615348525332122145403036]×[460232315178]\theta=\left( \left[ \begin{array} { c c c c } { 1 } & { 1 } & { 1 } & { 1 } \\ { 2104 } & { 1416 } & { 1534 } & { 852 } \\ { 5 } & { 3 } & { 3 } & { 2 } \\ { 1 } & { 2 } & { 2 } & { 1 } \\ { 45 } & { 40 } & { 30 } & { 36 } \end{array} \right] \times \left[ \begin{array} { c c c c c } { 1 } & { 2104 } & { 5 } & { 1 } & { 45 } \\ { 1 } & { 1416 } & { 3 } & { 2 } & { 40 } \\ { 1 } & { 1534 } & { 3 } & { 2 } & { 30 } \\ { 1 } & { 852 } & { 2 } & { 1 } & { 36 } \end{array} \right] \right) ^ { - 1 }\times \left[ \begin{array} { c c c c } { 1 } & { 1 } & { 1 } & { 1 } \\ { 2104 } & { 1416 } & { 1534 } & { 852 } \\ { 5 } & { 3 } & { 3 } & { 2 } \\ { 1 } & { 2 } & { 2 } & { 1 } \\ { 45 } & { 40 } & { 30 } & { 36 } \end{array} \right] \times \left[ \begin{array} { c } { 460 } \\ { 232 } \\ { 315 } \\ { 178 } \end{array} \right]$

在这里插入图片描述

需要注意的是，对于那些不可逆的矩阵（通常是因为特征之间不独立，如同时包含英尺为单位的尺寸和米为单位的尺寸两个特征，也有可能是特征数量大于训练集的数量），正规方程方法是不能用的。

正规方程相比较梯度下降算法，一个很大的优点是它不需要进行特征缩放。

正规方程方法和梯度下降算法的对比如下：

梯度下降	正规方程
需要选择学习率 $α\alpha$	不需要选择学习率 $α\alpha$
需要多次迭代	一次运算得到
当特征数量 $n$ 比较大的时候也较好的适用	需要计算 $(XTX)−1\left( X ^ { T } X \right) ^ { - 1 }$ ，如果特征数量 $n$ 较大时，运算代价比较大，因为矩阵逆的计算时间复杂度为 $\left( n ^ { 3 } \right)$
适用于各种类型的模型	只适用于线性模型，不适合逻辑回归模型等其他模型

只要特征变量的数目并不大，标准方程是一个很好的计算参数 $θ\theta$ 的替代方法。具体地说，只要特征变量数量小于一万，通常使用标准方程法，而不使用梯度下降法。

2.7 正规方程和不可逆性

在上面，讲了正规方程以及参数 $θ\theta$ 的求解，解得 $θ=(XTX)−1XTy\theta = \left( X ^ { T } X \right) ^ { - 1 } X ^ { T } y$ ，在这里需要计算 $(XTX)−1\left( X ^ { T } X \right) ^ { - 1 }$ ，前面我们讲过了矩阵的逆，也知道了矩阵的逆不一定存在，在这里，矩阵不可逆的常见原因有两个：