【Machine Learning 学习笔记(上）】

乐天呀

于 2022-04-29 10:40:49 发布

阅读量340

点赞数

分类专栏：机器学习文章标签：机器学习神经网络深度学习人工智能

原文链接：https://github.com/fengdu78/deeplearning_ai_books

版权

机器学习专栏收录该内容

3 篇文章

订阅专栏

Machine Learning学习笔记（上）

吴恩达机器学习网易云课堂地址https://study.163.com/course/introduction/1210076550.htm
github上的对应笔记https://github.com/fengdu78/deeplearning_ai_books

1、绪论

1.1 机器学习-machine learning

定义：

Arthur Samuel：在进行特定编程的情况下，给予计算机学习能力的领域

西洋棋程序

Tom Mitchell：程序从经验E中学习，解决任务T，达到性能度量值P，当且仅当，有了经验E后，经过P评判，程序在处理T时的性能有所提升

例如下棋程序：经验E 就是程序上万次的自我练习的经验而任务T 就是下棋。性能度量值P 就是它在与一些新的对手比赛时，赢得比赛的概率。

1.2 监督学习-Supervised Learning

有目标值即有标签，数据集中的每个样本都有相应的“正确答案”。

分类：肿瘤问题，离散的值

回归：房价预测，连续的值

1.3 无监督学习-Unsupervised Learning

没有目标值，标签

应用：计算机集群、社交网络分析、市场划分、天文数据分析

聚类算法：谷歌新闻

鸡尾酒宴会

2、单变量线性回归-Linear Regression with One Variable

2.1 模型表示-Model Representation

符号：

$m$ 代表训练集中实例的数量

$x$ 代表特征/输入变量

$y$ 代表目标变量/输出变量

$\left( x,y \right)$ 代表训练集中的实例

${{x}^{(i)}},{{y}^{(i)}})$ 代表第 $i$ 个观察实例

$h$ 代表学习算法的解决方案或函数也称为假设（hypothesis）

监督学习工作方式–房价预测

训练集–>学习算法–> $h$

输入房子类型–> $h$ —>预测价格

单变量线性回归：

单变量：只含有一个特征/输入变量

函数表达式： $h_\theta \left( x \right)=\theta_{0} + \theta_{1}x$

2.2 代价函数- Cost Function

训练集：

怎样为模型选择合适的参数（parameters） $\theta_{0}$ 和 $\theta_{1}$
我们选择的参数决定了我们得到的直线相对于我们的训练集的准确程度，模型所预测的值与训练集中实际值之间的差距（下图中蓝线所指）就是建模误差（modeling error）。

我们的目标便是选择出可以使得建模误差的平方和能够最小的模型参数。
即使得代价函数 : $\left( \theta_0, \theta_1 \right) = \frac{1}{2m}\sum\limits_{i=1}^m \left( h_{\theta}(x^{(i)})-y^{(i)}\right)^{2}$ 最小。
代价函数也被称作平方误差函数，有时也被称为平方误差代价函数。
代价函数：用来描述预测值与真实值之间的差异的度量，我们要做的是让预测值与真实值更接近，即让代价函数最小。

2.5 梯度下降-Gradient Descent

梯度下降：求函数最小值的算法
用梯度下降算法来求出代价函数 $J(\theta_{0}, \theta_{1})$ 的最小值。
批量梯度下降（batch gradient descent）算法公式：

:=是将右边的值赋给左边
$a$ 是学习率（learning rate）决定了我们沿着能让代价函数下降程度最大的方向向下迈出的步子有多大
算法思想：从初始值出发，每一次迭代，都向着代价函数 $j$ 变小的方向前进，直到达到局部最小的 $j$ 处
例如：当你在山上要下山时，环顾四周，找到下山的方向，然后朝着下山的方向移动一步，这时候你到了新的位置，在这个位置重复上述过程，直到到达山底
图像理解：从初试位置出发，到达底部，初始位置不同，底部可能不同，下图是沿着两个方向的梯度下降过程

上图可以看出，某些情况下，梯度下降求得是局部最优解
公式理解：
公式中，学习率 $a$ 始终为正值
1、代价函数的导数：确保每次下降总是沿着下山的方向走
看下面两种情形

上图：从右边开始下降，此时代价函数 $y$ 的导数为正数，乘以学习率 $a$ ,由于学习率 $a$ 为正值,故 $\alpha \frac{\partial }{\partial {\theta_{j}}}J\left( \theta \right)$ 为正值，故进行一次梯度下降后 ${\theta_{j}}$ 变小，下降的方向是向着代价函数的极小值方向
下图：从左边开始下降，此时代价函数 $y$ 的导数为负数，乘以学习率 $a$ ,由于学习率 $a$ 为正值,故 $\alpha \frac{\partial }{\partial {\theta_{j}}}J\left( \theta \right)$ 为负值，故进行一次梯度下降后 ${\theta_{j}}$ 变大，下降的方向是向着代价函数的极小值方向
以上说明代价函数的导数确保了每次都向正确的方向下降
2、学习率 $a$ :
当学习率太小时，每次迈的步子很小，因此需要迭代的次数会很多
当学习率太大时，它会导致无法收敛，甚至发散。
3、同步更新： $\theta_{0}$ 和 $\theta_{1}$ 同步更新

当函数的初始值在局部极小值时：此时代价函数的导数为0，故进行一次梯度下降时， $\theta_{i}$ 没有变化
另外梯度下降不只是应用于线性回归，适用范围很广

2.7 梯度下降的线性回归-GradientDescentForLinearRegression

梯度下降算法和线性回归模型

将线性回归的代价函数带入到梯度下降中：
$\frac{\partial }{\partial {{\theta }_{j}}}J({{\theta }_{0}},{{\theta }_{1}})=\frac{\partial }{\partial {{\theta }_{j}}}\frac{1}{2m}{{\sum\limits_{i=1}^{m}{\left( {{h}_{\theta }}({{x}^{(i)}})-{{y}^{(i)}} \right)}}^{2}}$
$j = 0$ 时： $\frac{\partial }{\partial {{\theta }_{0}}}J({{\theta }_{0}},{{\theta }_{1}})=\frac{1}{m}{{\sum\limits_{i=1}^{m}{\left( {{h}_{\theta }}({{x}^{(i)}})-{{y}^{(i)}} \right)}}}$
$j = 1$ 时： $\frac{\partial }{\partial {{\theta }_{1}}}J({{\theta }_{0}},{{\theta }_{1}})=\frac{1}{m}\sum\limits_{i=1}^{m}{\left( \left( {{h}_{\theta }}({{x}^{(i)}})-{{y}^{(i)}} \right)\cdot {{x}^{(i)}} \right)}$
则算法改写成线性回归的梯度下降法：

Repeat {
${\theta_{0}}:={\theta_{0}}-a\frac{1}{m}\sum\limits_{i=1}^{m}{ \left({{h}_{\theta }}({{x}^{(i)}})-{{y}^{(i)}} \right)}$
${\theta_{1}}:={\theta_{1}}-a\frac{1}{m}\sum\limits_{i=1}^{m}{\left( \left({{h}_{\theta }}({{x}^{(i)}})-{{y}^{(i)}} \right)\cdot {{x}^{(i)}} \right)}$
}

4、多变量线性回归-Linear Regression with Multiple Variables

4.1 多维特征-Multiple Features

房价预测的多变量模型

新的注释：
$n$ 代表特征的数量
${x^{\left( i \right)}}$ 代表第 $i$ 个训练实例，是特征矩阵中的第 $i$ 行，是一个向量（vector）。
比方说，上图的
${x}^{(2)}\text{=}\begin{bmatrix} 1416\\\ 3\\\ 2\\\ 40 \end{bmatrix}$ ，
${x}_{j}^{\left( i \right)}$ 代表特征矩阵中第 $i$ 行的第 $j$ 个特征，也就是第 $i$ 个训练实例的第 $j$ 个特征。
如上图的 $x_{2}^{\left( 2 \right)}=3,x_{3}^{\left( 2 \right)}=2$ ，
支持多变量的假设 $h$ 表示为： $h_{\theta}\left( x \right)={\theta_{0}}+{\theta_{1}}{x_{1}}+{\theta_{2}}{x_{2}}+...+{\theta_{n}}{x_{n}}$ ，
这个公式中有 $n + 1$ 个参数和 $n$ 个变量，为了使得公式能够简化一些，引入 $x_{0}=1$ ，则公式转化为： $h_{\theta} \left( x \right)={\theta_{0}}{x_{0}}+{\theta_{1}}{x_{1}}+{\theta_{2}}{x_{2}}+...+{\theta_{n}}{x_{n}}$
此时模型中的参数是一个 $n + 1$ 维的向量，任何一个训练实例也都是 $n + 1$ 维的向量，特征矩阵 $X$ 的维度是 $m * (n + 1)$ 。因此公式可以简化为： $h_{\theta} \left( x \right)={\theta^{T}}X$ ，其中上标 $T$ 代表矩阵转置。

4.2 多变量梯度下降-Gradient Descent for Multiple Variables

多变量线性回归假设函数：
$h_{\theta}\left( x \right)=\theta^{T}X={\theta_{0}}+{\theta_{1}}{x_{1}}+{\theta_{2}}{x_{2}}+...+{\theta_{n}}{x_{n}}$
代价函数：
$J\left( {\theta_{0}},{\theta_{1}}...{\theta_{n}} \right)=\frac{1}{2m}\sum\limits_{i=1}^{m}{{{\left( h_{\theta} \left({x}^{\left( i \right)} \right)-{y}^{\left( i \right)} \right)}^{2}}}$
多变量线性回归的批量梯度下降算法：
在这里插入图片描述
求导后得：

当 $n > = 1$ 时，
${{\theta }_{0}}:={{\theta }_{0}}-a\frac{1}{m}\sum\limits_{i=1}^{m}{({{h}_{\theta }}({{x}^{(i)}})-{{y}^{(i)}})}x_{0}^{(i)}$
${{\theta }_{1}}:={{\theta }_{1}}-a\frac{1}{m}\sum\limits_{i=1}^{m}{({{h}_{\theta }}({{x}^{(i)}})-{{y}^{(i)}})}x_{1}^{(i)}$
${{\theta }_{2}}:={{\theta }_{2}}-a\frac{1}{m}\sum\limits_{i=1}^{m}{({{h}_{\theta }}({{x}^{(i)}})-{{y}^{(i)}})}x_{2}^{(i)}$

4.3 梯度下降法实践1-特征缩放- Gradient Descent in Practice I - Feature Scaling

特征缩放：面对多维特征问题时，保证这些特征都有相近的尺度，帮助梯度下降算法更快地收敛。

以房价问题为例，假设我们使用两个特征，房屋的尺寸和房间的数量，尺寸的值为 0-2000平方英尺，而房间数量的值则是0-5，以两个参数分别为横纵坐标，绘制代价函数的等高线图能，看出图像会显得很扁，梯度下降算法需要非常多次的迭代才能收敛。

解决的方法是尝试将所有特征的尺度都尽量缩放到-1到1之间。如图：
在这里插入图片描述
最简单的方法是令： ${{x}_{n}}=\frac{{{x}_{n}}-{{\mu}_{n}}}{{{s}_{n}}}$ ，其中 ${\mu_{n}}$ 是平均值， ${s_{n}}$ 是标准差。

4.4 梯度下降法实践2-学习率-Gradient Descent in Practice II - Learning Rate

梯度下降算法收敛所需要的迭代次数根据模型的不同而不同，我们不能提前预知，我们可以绘制迭代次数和代价函数的图表来观测算法在何时趋于收敛。

$a$ 过小：则达到收敛所需的迭代次数会非常高
$a$ 过大：每次迭代可能不会减小代价函数，可能会越过局部最小值导致无法收敛。
学习率可以考虑3的倍数取值

4.5 特征和多项式回归-Features and Polynomial Regression

如房价预测问题，
$h_{\theta}\left( x \right)={\theta_{0}}+{\theta_{1}}\times{frontage}+{\theta_{2}}\times{depth}$
${x_{1}}=frontage$ （临街宽度）， ${x_{2}}=depth$ （纵向深度）， $x = f r o n t a g e * d e p t h = a r e a$ （面积），则： ${h_{\theta}}\left( x \right)={\theta_{0}}+{\theta_{1}}x$ 。
线性回归并不适用于所有数据，有时我们需要曲线来适应我们的数据，比如一个二次方模型： $h_{\theta}\left( x \right)={\theta_{0}}+{\theta_{1}}{x_{1}}+{\theta_{2}}{x_{2}^2}$
或者三次方模型： $h_{\theta}\left( x \right)={\theta_{0}}+{\theta_{1}}{x_{1}}+{\theta_{2}}{x_{2}^2}+{\theta_{3}}{x_{3}^3}$
在这里插入图片描述
通常我们需要先观察数据然后再决定准备尝试怎样的模型。另外，我们可以令： ${{x}_{2}}=x_{2}^{2},{{x}_{3}}=x_{3}^{3}$ ，从而将模型转化为线性回归模型。
根据函数图形特性，我们还可以使：
${{{h}}_{\theta}}(x)={{\theta }_{0}}\text{+}{{\theta }_{1}}(size)+{{\theta}_{2}}{{(size)}^{2}}$
或者:
${{{h}}_{\theta}}(x)={{\theta }_{0}}\text{+}{{\theta }_{1}}(size)+{{\theta }_{2}}\sqrt{size}$
注：如果我们采用多项式回归模型，在运行梯度下降算法前，特征缩放非常有必要。

4.6 正规方程-Normal Equation

正规方程：一次性直接求解参数的方法
表达式： $\theta ={{\left( {X^T}X \right)}^{-1}}{X^{T}}y$
训练集特征矩阵为 $X$ （包含了 ${{x}_{0}}=1$ ）
训练集结果为向量 $y$
示例：

梯度下降	正规方程
需要选择学习率 $\alpha$	不需要
需要多次迭代	一次运算得出
当特征数量 $n$ 大时也能较好适用	需要计算 ${{\left( {{X}^{T}}X \right)}^{-1}}$ 如果特征数量n较大则运算代价大，因为矩阵逆的计算时间复杂度为 $O\left( {{n}^{3}} \right)$ ，通常来说当 $n$ 小于10000 时还是可以接受的
适用于各种类型的模型	只适用于线性模型，不适合逻辑回归模型等其他模型

当特征变量数量小于1万时，一般选择正规方程
当特征变量数量大于1万时，一般选择梯度下降

4.7 正规方程及不可逆性-Normal Equation Noninvertibility

$\theta ={{\left( {X^{T}}X \right)}^{-1}}{X^{T}}y$
其中 $\left( {X^{T}}X \right)$ 不可逆原因有：
1、特征向量之间存在关联
2、特征值过多
解决办法：
1、删除多于的特征
2、正规化方法

$\theta ={{\left( {X^{T}}X \right)}^{-1}}{X^{T}}y$ 的推导过程：
$J\left( \theta \right)=\frac{1}{2m}\sum\limits_{i=1}^{m}{{{\left( {h_{\theta}}\left( {x^{(i)}} \right)-{y^{(i)}} \right)}^{2}}}$
其中： ${h_{\theta}}\left( x \right)={\theta^{T}}X={\theta_{0}}{x_{0}}+{\theta_{1}}{x_{1}}+{\theta_{2}}{x_{2}}+...+{\theta_{n}}{x_{n}}$

将向量表达形式转为矩阵表达形式，则有 $J(\theta )=\frac{1}{2}{{\left( X\theta -y\right)}^{2}}$ ，其中 $X$ 为 $m$ 行 $n$ 列的矩阵（ $m$ 为样本个数， $n$ 为特征个数）， $\theta$ 为 $n$ 行1列的矩阵， $y$ 为 $m$ 行1列的矩阵，对 $J(\theta )$ 进行如下变换

$J(\theta )=\frac{1}{2}{{\left( X\theta -y\right)}^{T}}\left( X\theta -y \right)$

$=\frac{1}{2}\left( {{\theta }^{T}}{{X}^{T}}-{{y}^{T}} \right)\left(X\theta -y \right)$

$=\frac{1}{2}\left( {{\theta }^{T}}{{X}^{T}}X\theta -{{\theta}^{T}}{{X}^{T}}y-{{y}^{T}}X\theta -{{y}^{T}}y \right)$

接下来对 $J(\theta )$ 偏导，需要用到以下几个矩阵的求导法则:

$\frac{dAB}{dB}={{A}^{T}}$

$\frac{d{{X}^{T}}AX}{dX}=2AX$

所以有:

$\frac{\partial J\left( \theta \right)}{\partial \theta }=\frac{1}{2}\left(2{{X}^{T}}X\theta -{{X}^{T}}y -{}({{y}^{T}}X )^{T}-0 \right)$

$=\frac{1}{2}\left(2{{X}^{T}}X\theta -{{X}^{T}}y -{{X}^{T}}y -0 \right)$

$={{X}^{T}}X\theta -{{X}^{T}}y$

令 $\frac{\partial J\left( \theta \right)}{\partial \theta }=0$ ,

则有 $\theta ={{\left( {X^{T}}X \right)}^{-1}}{X^{T}}y$

5.6 向量化-Vectorization

当实现机器学习算法时，如果你能好好利用语言内部集成的线性代数库，或者数值线性代数库，并联合调用它们，而不是自己去做那些函数库可以做的事情。会让程序的运行更有效率，可以用更少的代码实现你需要的功能，代码出错的可能性更小
示例：这是一个常见的线性回归假设函数： ${{h}_{\theta }}(x)=\sum\limits_{j=0}^{n}{{{\theta }_{j}}{{x}_{j}}}$
如果你想要计算 $h_\theta(x)$
方法一：计算 $j = 0$ 到 $j = n$ 的和。
方法二：把 $h_\theta(x)$ 看作 $\theta^Tx$ ，那么你就可以写成两个向量的内积，其中 $\theta$ 就是 $\theta_0$ 、 $\theta_1$ 、 $\theta_2$ ，如果你有两个特征量，如果 $n = 2$ ，并且如果你把 $x$ 看作 $x_0$ 、 $x_1$ 、 $x_2$

方法一，未向量化的代码实现方式：
在这里插入图片描述
方法二，向量化的代码实现：

与与方法一for循环的代码相比，方法二只需要一行代码，这行代码就是利用 Octave 的高度优化的数值，线性代数算法来计算两个向量 $\theta$ 以及 $x$ 的内积，这样向量化的实现更简单，它运行起来也将更加高效。
示例二：
这是线性回归算法梯度下降的更新规则：
在这里插入图片描述
我们用这条规则对 $j$ 等于 0、1、2等等的所有值，更新对象 $\theta_j$ ，我只是用 $\theta_0$ 、 $\theta_1$ 、 $\theta_2$ 来写方程，假设我们有两个特征量，所以 $n$ 等于2，这些都是我们需要对 $\theta_0$ 、 $\theta_1$ 、 $\theta_2$ 进行更新，这些都应该是同步更新

方法一：就是用一个 for 循环，就是让 $j$ 等于0、等于1、等于2，来更新 $\theta_j$ 。

方法二：向量化方法
我打算把 $\theta$ 看做一个向量，然后我用 $\theta$ - $\alpha$ 乘以某个别的向量 $\delta$ 来更新 $\theta$ 。
这里的 $\delta$ 等于

我要把 $\theta$ 看作一个向量，有一个 $n + 1$ 维向量， $\alpha$ 是一个实数， $\delta$ 在这里是一个向量。

所以这个减法运算是一个向量减法，因为 $\alpha$ 乘以 δ是一个向量，所以 $\theta$ 就是 $\theta$ - $\alpha \delta$ 得到的向量。
向量 $\delta$ ：

$X^{(i)}$ 是一个向量
在这里插入图片描述
你就会得到这些不同的式子，然后作加和。

实际上，在以前的一个小测验，如果你要解这个方程，我们说过为了向量化这段代码，我们会令u = 2v +5w因此，我们说向量 $u$ 等于2乘以向量 $v$ 加上5乘以向量 $w$ 。用这个例子说明，如何对不同的向量进行相加，这里的求和是同样的道理。

这就是为什么我们能够向量化地实现线性回归。

6、逻辑回归-Logistic Regression

6.1 分类问题-Classification

在分类问题中，如果要预测的变量 $y$ 是离散的值，我们将学习一种叫做逻辑回归 (Logistic Regression) 的算法。
分类问题示例：

首先从二元的分类问题开始
将因变量(dependent variable)可能属于的两个类分别称为负向类（negative class）和正向类（positiveclass）
因变量 $y\in { 0,1 \\}$ ，其中 0 表示负向类，1 表示正向类。
如果我们使用线性回归解决分类问题，
首先：假设函数的输出值可能远大于 1，或者远小于0，而我们的标签值应该是0或者1。
其次：如果我们用直线来拟合数据，当我们新增加某一特征，会出现新拟合的直线表现效果很差
如下图所示：
我们选择用假设函数与0.5比较来进行分类，首次分类拟合直线为洋红色，当我们再次添加一个特征时，新拟合的直线为蓝色，此时0.5分类的效果变得十分差了
在这里插入图片描述
基于上述缺点，线性回归不能很好的解决分类问题，因此我们引入了逻辑回归，虽然逻辑回归名词中有回归，但是它是一种分类算法，适用于标签值离散的情况。

6.2 假设表示-Hypothesis Representation

示例：
乳腺癌分类问题
我们可以用线性回归的方法求出适合数据的直线：

根据线性回归模型我们只能预测连续的值，然而对于分类问题，我们需要输出0或1，我们可以预测：
当 ${h_\theta}\left( x \right)>=0.5$ 时，预测 $y = 1$ 。
当 ${h_\theta}\left( x \right)<0.5$ 时，预测 $y = 0$ 。
此时线性模型很好的完成了分类任务，
添加新的实例，获得新的直线

这时，再使用0.5作为阀值来预测肿瘤是良性还是恶性便不合适了。可以看出，线性回归模型，因为其预测的值可以超越[0,1]的范围，并不适合解决这样的问题。
逻辑回归模型的假设是： $h_\theta \left( x \right)=g\left(\theta^{T}X \right)$
$X$ 代表特征向量
$g$ 代表逻辑函数是一个常用的逻辑函数为S形函数（Sigmoid function），公式为： $g\left( z \right)=\frac{1}{1+{{e}^{-z}}}$ 。
函数的图像为：
在这里插入图片描述
逻辑回归模型的假设函数：
$h_\theta \left( x \right)=g\left(\theta^{T}X \right)$
$g\left( z \right)=\frac{1}{1+{{e}^{-z}}}$ 。
$h_\theta \left( x \right)$ 的作用是，对于给定的输入变量，根据选择的参数计算输出变量=1的可能性即 $h_\theta \left( x \right)=P\left( y=1|x;\theta \right)$
例如，如果对于给定的 $x$ ，通过已经确定的参数计算得出 $h_\theta \left( x \right)=0.7$ ，则表示有70%的几率 $y$ 为正向类，相应地 $y$ 为负向类的几率为1-0.7=0.3。

6.3 决策边界-Decision Boundary

假设我们有一个模型：

并且参数 $\theta$ 是向量[-3 1 1]。则当 $-3+{x_1}+{x_2} \geq 0$ ，即 ${x_1}+{x_2} \geq 3$ 时，模型将预测 $y = 1$ 。
我们可以绘制直线 ${x_1}+{x_2} = 3$ ，这条线便是我们模型的分界线，将预测为1的区域和预测为 0的区域分隔开。
此时这条直线就是该模型的决策边界

假设我们的数据如下

因为需要用曲线才能分隔 $y = 0$ 的区域和 $y = 1$ 的区域，我们需要二次方特征： ${h_\theta}\left( x \right)=g\left( {\theta_0}+{\theta_1}{x_1}+{\theta_{2}}{x_{2}}+{\theta_{3}}x_{1}^{2}+{\theta_{4}}x_{2}^{2} \right)$ 是[-1 0 0 1 1]，则我们得到的决策边界恰好是圆点在原点且半径为1的圆形。
注：决策边界是在求出代价最小的 $\theta$ 值之后便拥有。而不是要遍历的选择 $\theta$ ，来求决策边界

6.4 代价函数-Cost Function

问题：

对于线性回归模型，我们定义的代价函数是所有模型误差的平方和。理论上来说，我们也可以对逻辑回归模型沿用这个定义，但是问题在于，当我们将 ${h_\theta}\left( x \right)=\frac{1}{1+{e^{-\theta^{T}x}}}$ 带入到这样定义了的代价函数中时，我们得到的代价函数将是一个非凸函数。

这意味着我们的代价函数有许多局部最小值，这将影响梯度下降算法寻找全局最小值。
我们重新定义逻辑回归的代价函数为： $J\left( \theta \right)=\frac{1}{m}\sum\limits_{i=1}^{m}{{Cost}\left( {h_\theta}\left( {x}^{\left( i \right)} \right),{y}^{\left( i \right)} \right)}$ ，其中

${h_\theta}\left( x \right)$ 与 $Cost\left( {h_\theta}\left( x \right),y \right)$ 之间的关系如下图所示：

将构建的 $Cost\left( {h_\theta}\left( x \right),y \right)$ 简化如下：
$Cost\left( {h_\theta}\left( x \right),y \right)=-y\times log\left( {h_\theta}\left( x \right) \right)-(1-y)\times log\left( 1-{h_\theta}\left( x \right) \right)$
带入代价函数得到：
$J\left( \theta \right)=\frac{1}{m}\sum\limits_{i=1}^{m}{[-{{y}^{(i)}}\log \left( {h_\theta}\left( {{x}^{(i)}} \right) \right)-\left( 1-{{y}^{(i)}} \right)\log \left( 1-{h_\theta}\left( {{x}^{(i)}} \right) \right)]}$
即： $J\left( \theta \right)=-\frac{1}{m}\sum\limits_{i=1}^{m}{[{{y}^{(i)}}\log \left( {h_\theta}\left( {{x}^{(i)}} \right) \right)+\left( 1-{{y}^{(i)}} \right)\log \left( 1-{h_\theta}\left( {{x}^{(i)}} \right) \right)]}$
在得到这样一个代价函数以后，我们便可以用梯度下降算法来求得能使代价函数最小的参数了。算法为：
Repeat {
$\theta_j := \theta_j - \alpha \frac{\partial}{\partial\theta_j} J(\theta)$
(simultaneously update all )
}
求导后得到：
Repeat {
$\theta_j := \theta_j - \alpha \frac{1}{m}\sum\limits_{i=1}^{m}{{\left( {h_\theta}\left( \mathop{x}^{\left( i \right)} \right)-\mathop{y}^{\left( i \right)} \right)}}\mathop{x}_{j}^{(i)}$
(simultaneously update all )
}
推导过程：
$J\left( \theta \right)=-\frac{1}{m}\sum\limits_{i=1}^{m}{[{{y}^{(i)}}\log \left( {h_\theta}\left( {{x}^{(i)}} \right) \right)+\left( 1-{{y}^{(i)}} \right)\log \left( 1-{h_\theta}\left( {{x}^{(i)}} \right) \right)]}$
考虑：
${h_\theta}\left( {{x}^{(i)}} \right)=\frac{1}{1+{{e}^{-{\theta^T}{{x}^{(i)}}}}}$
则：
${{y}^{(i)}}\log \left( {h_\theta}\left( {{x}^{(i)}} \right) \right)+\left( 1-{{y}^{(i)}} \right)\log \left( 1-{h_\theta}\left( {{x}^{(i)}} \right) \right)$
$={{y}^{(i)}}\log \left( \frac{1}{1+{{e}^{-{\theta^T}{{x}^{(i)}}}}} \right)+\left( 1-{{y}^{(i)}} \right)\log \left( 1-\frac{1}{1+{{e}^{-{\theta^T}{{x}^{(i)}}}}} \right)$
$=-{{y}^{(i)}}\log \left( 1+{{e}^{-{\theta^T}{{x}^{(i)}}}} \right)-\left( 1-{{y}^{(i)}} \right)\log \left( 1+{{e}^{{\theta^T}{{x}^{(i)}}}} \right)$
所以：
$\frac{\partial }{\partial {\theta_{j}}}J\left( \theta \right)=\frac{\partial }{\partial {\theta_{j}}}[-\frac{1}{m}\sum\limits_{i=1}^{m}{[-{{y}^{(i)}}\log \left( 1+{{e}^{-{\theta^{T}}{{x}^{(i)}}}} \right)-\left( 1-{{y}^{(i)}} \right)\log \left( 1+{{e}^{{\theta^{T}}{{x}^{(i)}}}} \right)]}]$
$=-\frac{1}{m}\sum\limits_{i=1}^{m}{[-{{y}^{(i)}}\frac{-x_{j}^{(i)}{{e}^{-{\theta^{T}}{{x}^{(i)}}}}}{1+{{e}^{-{\theta^{T}}{{x}^{(i)}}}}}-\left( 1-{{y}^{(i)}} \right)\frac{x_j^{(i)}{{e}^{{\theta^T}{{x}^{(i)}}}}}{1+{{e}^{{\theta^T}{{x}^{(i)}}}}}}]$
$=-\frac{1}{m}\sum\limits_{i=1}^{m}{{y}^{(i)}}\frac{x_j^{(i)}}{1+{{e}^{{\theta^T}{{x}^{(i)}}}}}-\left( 1-{{y}^{(i)}} \right)\frac{x_j^{(i)}{{e}^{{\theta^T}{{x}^{(i)}}}}}{1+{{e}^{{\theta^T}{{x}^{(i)}}}}}]$
$=-\frac{1}{m}\sum\limits_{i=1}^{m}{\frac{{{y}^{(i)}}x_j^{(i)}-x_j^{(i)}{{e}^{{\theta^T}{{x}^{(i)}}}}+{{y}^{(i)}}x_j^{(i)}{{e}^{{\theta^T}{{x}^{(i)}}}}}{1+{{e}^{{\theta^T}{{x}^{(i)}}}}}}$
$=-\frac{1}{m}\sum\limits_{i=1}^{m}{\frac{{{y}^{(i)}}\left( 1\text{+}{{e}^{{\theta^T}{{x}^{(i)}}}} \right)-{{e}^{{\theta^T}{{x}^{(i)}}}}}{1+{{e}^{{\theta^T}{{x}^{(i)}}}}}x_j^{(i)}}$
$=-\frac{1}{m}\sum\limits_{i=1}^{m}{({{y}^{(i)}}-\frac{{{e}^{{\theta^T}{{x}^{(i)}}}}}{1+{{e}^{{\theta^T}{{x}^{(i)}}}}})x_j^{(i)}}$
$=-\frac{1}{m}\sum\limits_{i=1}^{m}{({{y}^{(i)}}-\frac{1}{1+{{e}^{-{\theta^T}{{x}^{(i)}}}}})x_j^{(i)}}$
$=-\frac{1}{m}\sum\limits_{i=1}^{m}{[{{y}^{(i)}}-{h_\theta}\left( {{x}^{(i)}} \right)]x_j^{(i)}}$
$=\frac{1}{m}\sum\limits_{i=1}^{m}{[{h_\theta}\left( {{x}^{(i)}} \right)-{{y}^{(i)}}]x_j^{(i)}}$
注：虽然得到的梯度下降算法表面上看上去与线性回归的梯度下降算法一样，但是这里的 ${h_\theta}\left( x \right)=g\left( {\theta^T}X \right)$ 与线性回归中不同，所以实际上是不一样的。另外，在运行梯度下降算法之前，进行特征缩放依旧是非常必要的。

6.5 简化的成本函数和梯度下降-Simplified Cost Function and Gradient Descent

逻辑回归的代价函数：

这个式子可以合并成：

$Cost\left( {h_\theta}\left( x \right),y \right)=-y\times log\left( {h_\theta}\left( x \right) \right)-(1-y)\times log\left( 1-{h_\theta}\left( x \right) \right)$
即，逻辑回归的代价函数：
$Cost\left( {h_\theta}\left( x \right),y \right)=-y\times log\left( {h_\theta}\left( x \right) \right)-(1-y)\times log\left( 1-{h_\theta}\left( x \right) \right)$
$=-\frac{1}{m}\sum\limits_{i=1}^{m}{[{{y}^{(i)}}\log \left( {h_\theta}\left( {{x}^{(i)}} \right) \right)+\left( 1-{{y}^{(i)}} \right)\log \left( 1-{h_\theta}\left( {{x}^{(i)}} \right) \right)]}$
根据这个代价函数，为了拟合出参数，我们要试图找尽量让 $J\left( \theta \right)$ 取得最小值的参数 $\theta$ 。 $\underset{\theta}{\min }J\left( \theta \right)$
最小化代价函数的方法，是使用梯度下降法(gradient descent)。这是我们的代价函数：
$J\left( \theta \right)=-\frac{1}{m}\sum\limits_{i=1}^{m}{[{{y}^{(i)}}\log \left( {h_\theta}\left( {{x}^{(i)}} \right) \right)+\left( 1-{{y}^{(i)}} \right)\log \left( 1-{h_\theta}\left( {{x}^{(i)}} \right) \right)]}$
如果我们要最小化这个关于 $\theta$ 的函数值，使用梯度下降。

如果你有 $n$ 个特征，也就是说，参数向量 $\theta$ 包括 ${\theta_{0}}$ ${\theta_{1}}$ ${\theta_{2}}$ 一直到 ${\theta_{n}}$ ，那么你就需要用这个式子：
${\theta_j}:={\theta_j}-\alpha \frac{1}{m}\sum\limits_{i=1}^{m}{({h_\theta}({{x}^{(i)}})-{{y}^{(i)}}){{x}_{j}}^{(i)}}$ 来同时更新所有 $\theta$ 的值。
该表达式和线性回归表达式相同，但实际上假设函数完全不同
对于线性回归假设函数：
${h_\theta}\left( x \right)={\theta^T}X={\theta_{0}}{x_{0}}+{\theta_{1}}{x_{1}}+{\theta_{2}}{x_{2}}+...+{\theta_{n}}{x_{n}}$
而现在逻辑函数假设函数：
${h_\theta}\left( x \right)=\frac{1}{1+{{e}^{-{\theta^T}X}}}$
注：如果你的特征范围差距很大的话，那么应用特征缩放的方法，同样也可以让逻辑回归中，梯度下降收敛更快。

6.6 高级优化-Advanced Optimization

相比与上节的梯度下降，一些高级优化算法和一些高级的优化概念，利用这些方法，我们就能够使通过梯度下降，进行逻辑回归的速度大大提高，而这也将使算法更加适合解决大型的机器学习问题。
不同角度的梯度下降算法：

如上图所示，梯度下降先求 $J\left( \theta \right)$ 和这些偏导数，然后进行迭代。而一些高级的算法，如共轭梯度法 BFGS (变尺度法) 和L-BFGS (限制变尺度法) ，它们需要有一种方法来计算 $J\left( \theta \right)$ ，以及需要一种方法计算导数项，然后使用比梯度下降更复杂的算法来最小化代价函数。
这些算法的优点：
通常不需要手动选择学习率 $\alpha$ ，给出计算导数项和代价函数的方法，算法有一个智能的内部循环，称为线性搜索(line search)算法，它可以自动尝试不同的学习速率 $\alpha$ ，并自动选择一个好的学习速率 $a$ ，甚至可以为每次迭代选择不同的学习速率。
通常比梯度下降收敛的速度快的多
缺点：比梯度下降复杂的多
算法使用：

比方说，你有一个含两个参数的问题，这两个参数是 ${\theta_{0}}$ 和 ${\theta_{1}}$ ，因此，通过这个代价函数，你可以得到 ${\theta_{1}}$ 和 ${\theta_{2}}$ 的值，如果你将 $J\left( \theta \right)$ 最小化的话，那么它的最小值将是 ${\theta_{1}}=5$ ， ${\theta_{2}}=5$ 。代价函数 $J\left( \theta \right)$ 的导数推出来就是这两个表达式：
$\frac{\partial }{\partial {{\theta }_{1}}}J(\theta)=2({{\theta }_{1}}-5)$
$\frac{\partial }{\partial {{\theta }_{2}}}J(\theta)=2({{\theta }_{2}}-5)$
如果我们不知道最小值，但你想要代价函数找到这个最小值，是用比如梯度下降这些算法，但最好是用比它更高级的算法，你要做的就是运行一个像这样的Octave 函数：

function [jVal, gradient]=costFunction(theta)
    
　　jVal=(theta(1)-5)^2+(theta(2)-5)^2;
    
　　gradient=zeros(2,1);
    
　　gradient(1)=2*(theta(1)-5);
    
　　gradient(2)=2*(theta(2)-5);
    
end

这样就计算出这个代价函数，函数返回的第二个值是梯度值，梯度值应该是一个2×1的向量，梯度向量的两个元素对应这里的两个偏导数项，运行这个costFunction 函数后，你就可以调用高级的优化函数，这个函数叫
fminunc，它表示Octave 里无约束最小化函数。调用它的方式如下：

options=optimset('GradObj','on','MaxIter',100);

initialTheta=zeros(2,1);
    
[optTheta, functionVal, exitFlag]=fminunc(@costFunction, initialTheta, options);

你要设置几个options，这个 options 变量作为一个数据结构可以存储你想要的options，所以 GradObj 和On，这里设置梯度目标参数为打开(on)，这意味着你现在确实要给这个算法提供一个梯度，然后设置最大迭代次数，比方说100，我们给出一个 $\theta$ 的猜测初始值，它是一个2×1的向量，那么这个命令就调用fminunc，这个@符号表示指向我们刚刚定义的costFunction 函数的指针。如果你调用它，它就会使用众多高级优化算法中的一个，当然你也可以把它当成梯度下降，只不过它能自动选择学习速率 $\alpha$ ，你不需要自己来做。然后它会尝试使用这些高级的优化算法，就像加强版的梯度下降法，为你找到最佳的 ${\theta}$ 值。

6.7 多类别分类：一对多-Multiclass Classification_ One-vs-all

示例：
假如说你现在需要一个学习算法能自动地将邮件归类到不同的文件夹里，或者说可以自动地加上标签，那么，你也许需要一些不同的文件夹，或者不同的标签来完成这件事，来区分开来自工作的邮件、来自朋友的邮件、来自家人的邮件或者是有关兴趣爱好的邮件，那么，我们就有了这样一个分类问题：其类别有四个，分别用 $y = 1$ 、 $y = 2$ 、 $y = 3$ 、 $y = 4$ 来代表。
多类分类问题，我们的数据集或许看起来像这样：

可以借助逻辑回归，采用一对多的思想解决多分类问题
示例：现有一个数据集，有三个不同的类别，如下图所示

我们可以采用一对多的方法，将其分为三个二元分类问题。如类别1分类，实际上我们可以创建一个新的"伪"训练集，类型2和类型3定为负类，类型1设定为正类，我们创建一个新的训练集，如下图所示的那样，我们要拟合出一个合适的分类器。

这里的三角形是正样本，而圆形代表负样本。可以这样想，设置三角形的值为1，圆形的值为0，下面我们来训练一个标准的逻辑回归分类器，这样我们就得到一个正边界。
为了能实现这样的转变，我们将多个类中的一个类标记为正向类（ $y = 1$ ），然后将其他所有类都标记为负向类，这个模型记作 $h_\theta^{\left( 1 \right)}\left( x \right)$ 。接着，类似地第我们选择另一个类标记为正向类（ $y = 2$ ），再将其它类都标记为负向类，将这个模型记作 $h_\theta^{\left( 2 \right)}\left( x \right)$ ,依此类推。
最后我们得到一系列的模型简记为： $h_\theta^{\left( i \right)}\left( x \right)=p\left( y=i|x;\theta \right)$ 其中： $i=\left( 1,2,3....k \right)$
在我们需要做预测时，我们将所有的分类机都运行一遍，然后对每一个输入变量，都选择最高可能性的输出变量。然后训练这个逻辑回归分类器： $h_\theta^{\left( i \right)}\left( x \right)$ ，其中 $i$ 对应每一个可能的 $y = i$ ，最后，为了做出预测，我们给出输入一个新的 $x$ 值，用这个做预测。我们要做的就是在我们三个分类器里面输入 $x$ ，然后我们选择一个让 $h_\theta^{\left( i \right)}\left( x \right)$ 最大的 $i$ ，即 $\mathop{\max}\limits_i\,h_\theta^{\left( i \right)}\left( x \right)$ 。
选择出哪一个分类器是可信度最高效果最好的，那么就可认为得到一个正确的分类，无论 $i$ 值是多少，我们都有最高的概率值，我们预测 $y$ 就是那个值。

7、正则化-Regularization

7.1 过拟合的问题- The Problem of Overfitting

回归示例：

左边模型是一个线性模型，不能很好的拟合数据，欠拟合。
右边模型是一个非常曲折的曲线，过拟合数据，失去了算法的本质，不能很好的泛化到新的数据集。中间的是合适的。
分类示例：

左边欠拟合，右边过拟合
过拟合解决办法：
1、舍去一些特征，可以手动保留，也可以采用算法。
2、正则化。保留所有特征，但是减少参数的大小

7.2 代价函数-Cost Function

上面回归问题中，模型是：
${h_\theta}\left( x \right)={\theta_{0}}+{\theta_{1}}{x_{1}}+{\theta_{2}}{x_{2}^2}+{\theta_{3}}{x_{3}^3}+{\theta_{4}}{x_{4}^4}$
分析发现，其中高次项导致了过拟合的产生，我们设法让这些高次项尽可能的减少这些参数 $\theta$ 的值，让模型变得简单。
在实际中，我们并不知道哪些特征需要减少参数。故我们可以在模型中，加入惩罚项，来惩罚所有的项。得到了一个防止过拟合的假设函数。
$J\left( \theta \right)=\frac{1}{2m}[\sum\limits_{i=1}^{m}{{{({h_\theta}({{x}^{(i)}})-{{y}^{(i)}})}^{2}}+\lambda \sum\limits_{j=1}^{n}{\theta_{j}^{2}}]}$
$\lambda$ 又称为正则化参数。注：根据惯例，我们不对 ${\theta_{0}}$ 进行惩罚。
如下图所示：
蓝色是过拟合数据的曲线，橙红色加入正则化后的拟合曲线。

但是如果正则化参数 $\lambda$ 过大，则会把所有的参数都最小化了，导致模型变成 ${h_\theta}\left( x \right)={\theta_{0}}$ ，也就是上图中红色直线所示的情况，造成欠拟合。
因此选择合适的 $\lambda$ 很重要

7.3 正则化线性回归- Regularized Linear Regression

线性回归算法：
梯度下降
正规方程
正则化线性回归的代价函数为：
$J\left( \theta \right)=\frac{1}{2m}\sum\limits_{i=1}^{m}{[({{({h_\theta}({{x}^{(i)}})-{{y}^{(i)}})}^{2}}+\lambda \sum\limits_{j=1}^{n}{\theta _{j}^{2}})]}$
未对 $\theta_0$ 进行正则化，故梯度下降分为下面两种情形：
$R e p e a t$ $u n t i l$ $c o n v e r g e n c e$ {
${\theta_0}:={\theta_0}-a\frac{1}{m}\sum\limits_{i=1}^{m}{(({h_\theta}({{x}^{(i)}})-{{y}^{(i)}})x_{0}^{(i)}})$
${\theta_j}:={\theta_j}-a[\frac{1}{m}\sum\limits_{i=1}^{m}{(({h_\theta}({{x}^{(i)}})-{{y}^{(i)}})x_{j}^{\left( i \right)}}+\frac{\lambda }{m}{\theta_j}]$
$f o r$ $j = 1, 2, . . . n$
}
对上面的算法中 $j = 1, 2, . . ., n$ 时的更新式子进行调整可得：
${\theta_j}:={\theta_j}(1-a\frac{\lambda }{m})-a\frac{1}{m}\sum\limits_{i=1}^{m}{({h_\theta}({{x}^{(i)}})-{{y}^{(i)}})x_{j}^{\left( i \right)}}$
其中 $1-a\frac{\lambda }{m}$ 是一个比1稍微小的数，类比于0.99，后半部分是梯度下降部分，可以看出，正则化线性回归的梯度下降算法的变化在于，每次都在原有算法更新规则的基础上令 $\theta$ 值减少了一个额外的值。
正规方程求解正则化线性回归模型：

矩阵尺度是 $(n + 1) * (n + 1)$ 。

7.4 正则化的逻辑回归模型-Regularized Logistic Regression

逻辑回归优化算法：
1、梯度下降
2、更高级的优化算法
正则化逻辑回归代价函数：
$J\left( \theta \right)=\frac{1}{m}\sum\limits_{i=1}^{m}{[-{{y}^{(i)}}\log \left( {h_\theta}\left( {{x}^{(i)}} \right) \right)-\left( 1-{{y}^{(i)}} \right)\log \left( 1-{h_\theta}\left( {{x}^{(i)}} \right) \right)]}+\frac{\lambda }{2m}\sum\limits_{j=1}^{n}{\theta _{j}^{2}}$
从而得到梯度下降算法：
$R e p e a t$ $u n t i l$ $c o n v e r g e n c e$ {
${\theta_0}:={\theta_0}-a\frac{1}{m}\sum\limits_{i=1}^{m}{(({h_\theta}({{x}^{(i)}})-{{y}^{(i)}})x_{0}^{(i)}})$
${\theta_j}:={\theta_j}-a[\frac{1}{m}\sum\limits_{i=1}^{m}{({h_\theta}({{x}^{(i)}})-{{y}^{(i)}})x_{j}^{\left( i \right)}}+\frac{\lambda }{m}{\theta_j}]$
$f o r$ $j = 1, 2, . . . n$
}
看上去与线性回归相同，但是逻辑回归的假设函数是 ${h_\theta}\left( x \right)=g\left( {\theta^T}X \right)$ ，与线性回归不同。

8 神经网络-Neural Networks

8.1 非线性假设-Non-linear Hypotheses

线性回归和逻辑回归，当特征的数量太多时，计算得开销大大增加
示例：
假如我们只选用灰度图片，每个像素则只有一个值（而非 RGB值），我们可以选取图片上的两个不同位置上的两个像素，然后训练一个逻辑回归算法利用这两个像素的值来判断图片上是否是汽车：

假使我们采用的都是50x50像素的小图片，并且我们将所有的像素视为特征，则会有 2500个特征，如果我们要进一步将两两特征组合构成一个多项式模型，则会有约个（接近3百万个）特征。普通逻辑回归模型，处理的效率大大降低，这时我们引入神经网络

8.2 神经元和大脑-Neurons and the Brain

神经网络最初的目的是制造能够模拟大脑的机器。
神经网络逐渐兴起于二十世纪八九十年代，应用得非常广泛。
假设大脑处理各种事务的方法，只需要一个单一的学习算法就可以了。
示例：
用舌头学会了看

示例：

关于人体回声定位或者说人体声纳。你有两种方法可以实现：你可以弹响指，或者咂舌头。

8.3 模型表示1-Model Representation I

神经元
每一个神经元都可以被认为是一个处理单元/神经核（processing unit/Nucleus），它含有许多输入/树突（input/Dendrite），并且有一个输出/轴（output/Axon）。神经网络是大量神经元相互链接并通过电脉冲来交流的一个网络。
示意图

神经网络模型建立在很多神经元之上，每一个神经元又是一个个学习模型。这些神经元（也叫激活单元，activation unit）采纳一些特征作为输出，并且根据本身的模型提供一个输出。下图是一个以逻辑回归模型作为自身学习模型的神经元示例，在神经网络中，参数又可被成为权重（weight）。

类似神经元的神经网络：
其中 $x_1$ , $x_2$ , $x_3$ 是输入单元（input units），我们将原始数据输入给它们。 $a_1$ , $a_2$ , $a_3$ 是中间单元，它们负责将数据进行处理，然后呈递到下一层。最后是输出单元，它负责计算 ${h_\theta}\left( x \right)$ 。

神经网络模型是许多逻辑单元按照不同层级组织起来的网络，每一层的输出变量都是下一层的输入变量。下图为一个3层的神经网络，第一层成为输入层（Input Layer），最后一层称为输出层（Output Layer），中间一层成为隐藏层（Hidden Layers）。我们为每一层都增加一个偏差单位（bias unit）：
在这里插入图片描述
符号：
$a_{i}^{\left( j \right)}$ 代表第 $j$ 层的第 $i$ 个激活单元。 ${{\theta }^{\left( j \right)}}$ 代表从第 $j$ 层映射到第$ j+1$ 层时的权重的矩阵，例如 ${{\theta }^{\left( 1 \right)}}$ 代表从第一层映射到第二层的权重的矩阵。其尺寸为：以第 $j + 1$ 层的激活单元数量为行数，以第 $j$ 层的激活单元数加一为列数的矩阵。例如：上图所示的神经网络中 ${{\theta }^{\left( 1 \right)}}$ 的尺寸为 3*4。
对于上图的模型，激活单元和输出如下

沿着从输入层到输出层方向进行的算法成为前向传播算法( FORWARD PROPAGATION ）

8.4 模型表示2-Model Representation II

采用向量化实现上述模型

我们令 ${{z}^{\left( 2 \right)}}={{\theta }^{\left( 1 \right)}}x$ ，则 ${{a}^{\left( 2 \right)}}=g({{z}^{\left( 2 \right)}})$ ，计算后添加 $a_{0}^{\left( 2 \right)}=1$ 。计算输出的值为：

我们令 ${{z}^{\left( 3 \right)}}={{\theta }^{\left( 2 \right)}}{{a}^{\left( 2 \right)}}$ ，则 $h_\theta(x)={{a}^{\left( 3 \right)}}=g({{z}^{\left( 3 \right)}})$ 。
这只是针对训练集中一个训练实例所进行的计算。如果我们要对整个训练集进行计算，我们需要将训练集特征矩阵进行转置，使得同一个实例的特征都在同一列里。即：
${{z}^{\left( 2 \right)}}={{\Theta }^{\left( 1 \right)}}\times {{X}^{T}}$
${{a}^{\left( 2 \right)}}=g({{z}^{\left( 2 \right)}})$

为了更好了了解Neuron Networks的工作原理，我们先把左半部分遮住：

右半部分其实就是以 $a_0, a_1, a_2, a_3$ , 按照Logistic Regression的方式输出 $h_\theta(x)$ ：

其实神经网络就像是logistic regression，只不过我们把logistic regression中的输入向量 $\left[ x_1\sim {x_3} \right]$ 变成了中间层的 $\left[ a_1^{(2)}\sim a_3^{(2)} \right]$ , 即: $h_\theta(x)=g\left( \Theta_0^{\left( 2 \right)}a_0^{\left( 2 \right)}+\Theta_1^{\left( 2 \right)}a_1^{\left( 2 \right)}+\Theta_{2}^{\left( 2 \right)}a_{2}^{\left( 2 \right)}+\Theta_{3}^{\left( 2 \right)}a_{3}^{\left( 2 \right)} \right)$
我们可以把 $a_0, a_1, a_2, a_3$ 看成更为高级的特征值，也就是 $x_0, x_1, x_2, x_3$ 的进化体，并且它们是由 $x$ 与 $\theta$ 决定的，因为是梯度下降的，所以 $a$ 是变化的，并且变得越来越厉害，所以这些更高级的特征值远比仅仅将 $x$ 次方厉害，也能更好的预测新数据。
这就是神经网络相比于逻辑回归和线性回归的优势。

8.5 示例和直观理解1-Examples and Intuitions I

在神经网络中，原始特征只是输入层，在我们上面三层的神经网络例子中，第三层也就是输出层做出的预测利用的是第二层的特征，而非输入层中的原始特征，我们可以认为第二层中的特征是神经网络通过学习后自己得出的一系列用于预测输出变量的新特征。
神经网络中，单层神经元（无中间层）的计算可用来表示逻辑运算，比如逻辑与(AND)、逻辑或(OR)。
示例：逻辑与

示例：逻辑或

8.6 示例和直观理解II-Examples and Intuitions II

与上述同理，实现逻辑非

结合多种神经元实现神经网络，来实现异或运算
在这里插入图片描述
如上图所示上边是三种运算的各个神经元，左下为神经元模型，过程为：输入层输入数据，分别经过上述两个神经元运算，结果作为隐藏层的值，加上偏置值后，隐藏层的值作为输入，再进入一个神经元，结果即是最后的输出。右下为每一个过程过程的结果，符合异或运算规则。

8.7 多类分类- Multiclass Classification

示例：进行四种类别的分类
输入向量 $x$ 有三个维度，两个中间层，输出层4个神经元分别用来表示4类，也就是每一个数据在输出层都会出现 ${{\left[ a\text{ }b\text{ }c\text{ }d \right]}^{T}}$ ，且 $a, b, c, d$ 中仅有一个为1，表示当前类。

输出结果：