机器学习吴恩达课程总结(二)

原创已于 2022-04-15 14:52:15 修改 · 4k 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #python

于 2022-04-14 16:47:46 首次发布

机器学习专栏收录该内容

6 篇文章

订阅专栏

本文概述了逻辑回归的决策边界、损失函数优化及正则化应用，然后探讨了神经网络如何处理非线性假设，包括多分类问题和正则化的使用。重点介绍了神经元模型和实际案例，展示了从线性到复杂非线性的模型转变。

6. 第六章逻辑回归（Logistic Regression）

6.1 分类（Classification）

标签 $\in \{ 0,1\}$ ，其中 $0$ ：表示负类（Negative class）； $1$ ：表示正类（Positive class）。

$0, 1$ 的定义没有明确的规定，但倾向于 $1$ 表示我们要找的东西， $0$ 表示没有。

问题：直接用单纯的线性回归，往往不能得到一个很好的假设，因此不推荐直接将线性回归应用于分类问题。

原先的 ${h_\theta }(x)$ 取值可以大于1或者小于0，但是逻辑回归要求 $\le {h_\theta }(x) \le 1$ 。

注意：逻辑回归虽然名字带有回归，而实际上却是解决分类问题。

6.2 逻辑回归：假设陈述

目标：想要 ${h_\theta }(x)$ 取值满足 $\le {h_\theta }(x) \le 1$ 。

令 ${h_\theta }(x) = g({\theta ^T}x)$ ，其中 $\over {1 + {e^{ - z}}}}$ ，即sigmod函数

${h_\theta }(x) = {1 \over {1 + {e^{ - {\theta ^T}x}}}}$

假设输出解释： ${h_\theta }(x)$ 是在输入 $x$ 的前提下的 $y = 1$ 的可能性，即 $1|x;\theta ) = {h_\theta }(x)$ ，同时满足 $0|x;\theta ) = 1 - P(y = 0|x;\theta ) = 1 - {h_\theta }(x)$ ， $1|x;\theta ) + P(y = 0|x;\theta ) = 1$

6.3 决策边界（Decision Boundary）

预测 $y = 1$ ，如果 ${h_\theta }(x) \ge 0.5$
预测 $y = 0$ ，如果 ${h_\theta }(x) < 0.5$

$\ge 0.5 \Rightarrow z \ge 0 \Rightarrow {\theta ^T}x \ge 0$ 同理 $\Rightarrow z < 0 \Rightarrow {\theta ^T}x < 0$ ，所以 ${\theta ^T}x = 0$ 两侧分为两种情况，这个超平面是决策边界。决策边界是假设本身及其参数的属性。

同时通过特征的各种非线性组合也可以拟合出很复杂的决策边界，如： ${x_1}{x_2},{x_i}^2$ 等。

6.4 损失函数（Cost Function）

如何拟合出逻辑回归的参数 $\theta$ ？

训练集： ${ ({x^{(1)}},{y^{(1)}}),({x^{(2)}},{y^{(2)}}),...,({x^{(m)}},{y^{(m)}})\}$ ， $m$ 个训练样本， $\in {R^{n + 1}},{x_0} = 1,y \in \{ 0,1\}$ 。

假设函数： ${h_\theta }(x) = {1 \over {1 + {e^{ - {\theta ^T}x}}}}$

如何选择参数 $\theta$ ？

回顾线性回归： $J(\theta ) = {1 \over {2m}}\sum\limits_{i = 1}^m {{{({h_\theta }({x^{(i)}}) - {y^{(i)}})}^2}}$ ， $\cos t({h_\theta }(x),y) = {1 \over 2}{({h_\theta }({x^{(i)}}) - {y^{(i)}})^2}$ 。

如果直接采用这个作为逻辑回归的代价函数，会是非凸函数，导致优化困难，因此引入新的代价函数。

逻辑回归的损失函数： $\cos t({h_\theta }(x),y) = \{ _{ - \log (1 - {h_\theta }(x)),y = = 0}^{ - \log ({h_\theta }(x)),y = = 1}$ ，因此如果 ${y = 1}$ 并且 ${h_\theta }(x){\rm{ = }}1$ 则 $\cos t = 0$ ，如果 ${y = 1}$ 并且 ${h_\theta }(x){\rm{ = }}0$ 则 $\cos t = {\rm{ + }}\infty$ 。

直觉：如果我们的输出 ${h_\theta }(x)$ 不一致时，我们的学习算法将会有一个很大的处罚。

这个代价函数是一个凸优化问题。

6.5 简化代价函数与梯度下降

逻辑回归的损失函数： $\cos t({h_\theta }(x),y) = \{ _{ - \log (1 - {h_\theta }(x)),y = = 0}^{ - \log ({h_\theta }(x)),y = = 1}$ ，注意到 ${\rm{y = }}0{\rm{ory = }}1$ ，因此合并两种情况得： $\cos t({h_\theta }(x),y){\rm{ = - y}}\log ({h_\theta }(x)) - (1 - y)\log (1 - {h_\theta }(x))$ 。

$\cos t({h_\theta }(x),y) = {1 \over m}\sum\limits_{i = 1}^m {\cos t} ({h_\theta }({x^{(i)}}) - {y^{(i)}}) = - {1 \over m}[\mathop \Sigma \limits_{i = 1}^m {{\rm{y}}^{(i)}}\log ({h_\theta }({x^{(i)}})) + (1 - {{\rm{y}}^{(i)}})\log (1 - {h_\theta }({x^{(i)}}))]$

想要 $\mathop {min}\limits_\theta J(\theta )$

${\theta _j}: = {\theta _j} - \alpha {\partial \over {\partial {\theta _j}}}J(\theta )$

${\partial \over {\partial {\theta _j}}}J(\theta ) = {1 \over m}\sum\limits_{i = 1}^m {{{({h_\theta }({x^{(i)}}) - {y^{(i)}})}^{}}} x_j^{(i)}$

${\theta _j}: = {\theta _j} - \alpha \sum\limits_{i = 1}^m {{{({h_\theta }({x^{(i)}}) - {y^{(i)}})}^{}}} x_j^{(i)},$ $\over m}$ 并入 $\alpha$ ，注意：要同时更新所有的 ${\theta _j}$

综上：与线性回归形式相同只是 ${h_\theta }(x)$ 不同。

逻辑回归同样可以进行特征缩放，使得梯度下降收敛速度更快。

6.6 高级优化方法

优化算法：

梯度下降法（常用，简单）
共轭梯度法（conjugate gradient）
拟牛顿法（BFGS）
L-BFGS

高级优化算法的优点：

无需手动挑选学习率 $\alpha$
通常比梯度下降法更快

高级优化算法的缺点：

更复杂

6.7 多分类：一对多（one-vs-all）

标签： ${\rm{y}} \in {\rm{\{ 0,1,2,}}...{\rm{\} }}$

多分类转换为多个二分类 $\Rightarrow$ 一对其他，如：一个三分类问题可以转化为三个二分类问题

one-vs-all：

对于每种类别 $i$ 分别训练逻辑回归分类器 $h_\theta ^{(i)}(x)$ 去预测 $y = i$ 的可能性
在一个新的输入 $x$ 上进行预测，挑选 $h_\theta ^{(i)}(x)$ 最大值作为该输入的类别，即 $\mathop {\max }\limits_i h_\theta ^{(i)}(x)$

7. 第七章正则化（Regularization）

7.1 过拟合问题（overfitting）

欠拟合：相较于数据而言，模型参数过少或者模型结构过于简单，以至于无法捕捉到数据中的规律的现象。高偏差（high bias）

过拟合：模型过于紧密或精确地匹配特定数据集，以致于无法良好地拟合其他数据或预测未来的观察结果的现象。高方差（high variance）

合适的拟合：模型能够恰当地拟合和捕捉到数据中规律的现象

过拟合：我们有很多特征，我们学习的超参数适合几乎所有的训练数据（代价函数约等于 $0$ ），但是无法泛化（generalize）到新的数据集上（测试集）。

泛化：指模型在新数据上的性能。新数据：未在训练数据集上出现过的样本

解决过拟合：

减少特征数量
- 人工选择保留哪些特征
- 模型选择算法
正则化
- 保留所有的特征，但是减少参数 ${\theta _j}$ 的值
- 当我们有大量特征时表现好，每个特征对预测 $y$ 的值贡献一点

7.2 代价函数（cost function）

直觉：

${\theta _0} + {\theta _1}x + {\theta _2}{x^2}$ 是一个好的拟合，而 ${\theta _0} + {\theta _1}x + {\theta _2}{x^2} + {\theta _3}{x^3} + {\theta _4}{x^4}$ 是一个过拟合

假设我们惩罚，使 ${\theta _3}$ 和 ${\theta _4}$ 很小，如： $\mathop {\min }\limits_\theta {1 \over {2m}}\sum\limits_{i = 1}^m {\cos t} {({h_\theta }({x^{(i)}}) - {y^{(i)}})^2} + 100\theta _3^3 + 100\theta _4^4$ ，为了最小化这个值 ${\theta _3} \approx 0,{\theta _4} \approx 0$ ，通过让 ${\theta _3}$ 和 ${\theta _4}$ 很小，这样得到一个更加简单地模型。

正则化：

参数 ${\theta _j}$ 取小值的好处：更简单的假设（平滑）；不易过拟合；减小噪声的影响。

由于我们并不知道去缩小哪些参数 $\theta$ 的值去正则化，因此加入 $\lambda \sum\limits_{j = 1}^n {\theta _j^2}$ 正则化项，让每个参数 $\theta$ 的值都小。

加入正则化项的代价函数： $J(\theta ) = {1 \over {2m}}\sum\limits_{i = 1}^m {} {({h_\theta }({x^{(i)}}) - {y^{(i)}})^2} + \lambda \sum\limits_{j = 1}^n {\theta _j^2}$ 一般无 ${\theta _0}$ ，其中 $\lambda$ 表示正则化数。

如果$ $\lambda$ 设置过大会发生什么（如： $\lambda =10^{10}$ ?

这样会导致所有参数都约等于 $0$ ，从而 ${h_\theta }(x) = {\theta _0}$ ，即用一条水平直线去拟合导致欠拟合。

7.3 正则化线性回归

梯度下降法

$J(\theta ) = {1 \over {2m}}\sum\limits_{i = 1}^m {} {({h_\theta }({x^{(i)}}) - {y^{(i)}})^2} + \lambda \sum\limits_{j = 1}^n {\theta _j^2}$

$\mathop {min}\limits_\theta J(\theta )$

${\theta _0}: = {\theta _0} - \alpha {1 \over m}\sum\limits_{i = 1}^m {{{({h_\theta }({x^{(i)}}) - {y^{(i)}})}^{}}} x_0^{(i)}$

${\theta _j}: = {\theta _j} - \alpha {1 \over m}[\sum\limits_{i = 1}^m {{{({h_\theta }({x^{(i)}}) - {y^{(i)}})}^{}}} x_j^{(i)} + {\lambda \over m}{\theta _j}] \Rightarrow {\theta _j}: = {\theta _j}(1 - \alpha {\lambda \over m}) - \alpha {1 \over m}\sum\limits_{i = 1}^m {{{({h_\theta }({x^{(i)}}) - {y^{(i)}})}^{}}} x_j^{(i)}$

$\alpha {\lambda \over m}$ 是一个略小于 $1$ 的数，因为通常 $\alpha$ 较小， $m$ 较大。

标准方程

$\mathop {min}\limits_\theta J(\theta )$

$\theta = {({X^T}X)^{ - 1}}{X^T}y \Rightarrow \theta = {({X^T}X + \lambda {I_{(n + 1) \times (n + 1)}})^{ - 1}}{X^T}y$

7.4 正则化逻辑回归

${\rm{g}}( * )$ 表示sigmod函数。

${\theta _0}: = {\theta _0} - \alpha {1 \over m}\sum\limits_{i = 1}^m {{{({h_\theta }({x^{(i)}}) - {y^{(i)}})}^{}}} x_0^{(i)}$

${\theta _j}: = {\theta _j} - \alpha {1 \over m}[\sum\limits_{i = 1}^m {{{({h_\theta }({x^{(i)}}) - {y^{(i)}})}^{}}} x_j^{(i)} + {\lambda \over m}{\theta _j}]$

其中 $[]$ 里面是 ${\partial \over {\partial {\theta _j}}}J(\theta )$ 。

8. 第八章神经网络：表示（Neural Network：Representation）

8.1 非线性假设（Non-linear hypothesis）

之前的方法如果拟合比较复杂的数据集，可能要引入很多次的特征表示，比如有 ${x_1},{x_2}$ 两个特征，引入所有二次项有 $3$ 个，若有100个特征引入所有二次项有 $\over 2}$ 个，会导致特征非常多。因此，当初始特征个数 $n$ 很大时，将这些高阶多项式项数都包含到特征中，会使得特征空间急剧膨胀。综上，当初始特征个数 $n$ 很大时，通过增加特征来建立非线性分类器并不是一个好做法。