Coursera Machine Learning Week1 学习笔记

最新推荐文章于 2022-02-12 14:50:29 发布

原创最新推荐文章于 2022-02-12 14:50:29 发布 · 1.1k 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习

机器学习专栏收录该内容

4 篇文章

订阅专栏

本文介绍了机器学习的基本概念，包括监督学习与非监督学习的区别，以及单变量线性回归模型的数学表示方法。此外，还详细阐述了如何使用梯度下降法来最小化代价函数。

注：本文已迁移到http://blog.youkuaiyun.com/JinbaoSite/article/details/66530136

Coursera Machine Learning Week1

一、Introduction

1.1 机器学习（Machine Learning）

第一个机器学习的定义来自于Arthur Samuel，他定义机器学习为

在进行特定编程的情况下，给予计算机学习能力的领域。

近年代的机器学习定义由Tom Mitchell提出，Tom定义的机器学习是

一个程序被认为能从经验E中学习，解决任务T，达到性能度量值P，当且仅当，有了经验E后，经过P评判，程序在处理T时的性能有所提升。

1.2 监督学习（Supervised Learning）

1、在监督学习中，我们给出数据组，并且已经知道正确的输出是什么样，明确输入和输出之间的关系。

2、监督学习问题可以归类为回归(regression) 和分类(classification) 问题。
在回归问题上，我们试着推测出一个连续的输出结果。
在分类问题上，我们试着推测出一个离散的输出结果。

3、例子：
（1）回归问题：给定关于在房子占地大小去预测卖出这套房子的价格。
（2）回归问题：根据给定的男/女性图片，预测他们的年龄。
（3）分类问题：对于有肿瘤的患者，预测肿瘤是恶性的还是良性的。

1.3 无监督学习（Unsupervised Learning）

1、非监督学习就是数据集没有任何的标签或者是有相同标签的情况下，判断出数据集有不同的聚集簇。

2、在非监督学习中，可以解决事先不知道结果会怎么样的问题。我们不必知道数据是否有效就可以通过基于数据中的变量之间的关系对数据进行聚类来导出结构。

3、对于非监督学习，没有基于预测结果的反馈。

4、例子：
（1）聚类（Clustering）：收集100万个不同的基因，并找到一种方法来自动将这些基因分组到不同的变量，如寿命，位置，角色等不同类型或相关的组。
（2）非聚类（Non-clustering）：在鸡尾酒会上从声音网中识别单个声音和音乐

二、单变量线性回归（Linear Regression with One Variable）

2.1 模型表示（Model Representation）

1、对于回归问题，我们做如下标记：
$m$ ：代表训练集中实例的数量
$x$ ：代表特征/输入变量
$y$ ：代码目标变量/输出变量
$(x,y)$ ：代表训练集的实例
$(x^{(i)},y^{(i)})$ 代表第 $i$ 个观察实例
$h$ ：学习算法方案或函数，也称为假设（ $hypothesis$ ）函数

2、为了正式描述监督学习问题，我们的目标是给一个训练集，通过学习函数 $h : X → Y$ 来预测 $y$ 的值。

3、监督学习算法的工作方式

4、对于单变量线性回归问题，由于只含有一个特征/输入变量，因此单变量线性回归问题的 $h$ 表达方式为：

h θ (x) = θ 0 + θ 1 x

$h_{\theta}(x)={\theta}_{0}+{\theta}_{1}x$

2.2 代价函数（Cost Function）

1、为了测量假设函数的准确性，我们引入代价函数，代价函数就是输入变量 $x$ 通过假设函数 $h$ 得到实际输出 $\hat{y}$ ，然后求与目标输出 $y$ 的方差。方差 $J(\theta_0, \theta_1)$ 越小说明，假设函数越准确。

2、代价函数：
$Hypothesis：$

y^= h θ (x) = θ 0 + θ 1 x

$\hat{y}=h_{\theta}(x)={\theta}_{0}+{\theta}_{1}x$

Parameters: $Parameters:$

θ 0, θ 1

${\theta}_{0},{\theta}_{1}$

CostFunction: $Cost Function:$

J (θ 0, θ 1) = 1 2 m \sum i = 1 m (y^i - y i) 2 = 1 2 m \sum i = 1 m (h θ (x i) - y i) 2

$J(\theta_0, \theta_1) = \dfrac {1}{2m} \displaystyle \sum _{i=1}^m \left ( \hat{y}_{i}- y_{i} \right)^2 = \dfrac {1}{2m} \displaystyle \sum _{i=1}^m \left (h_\theta (x_{i}) - y_{i} \right)^2$

Goal: $Goal:$

m i n i m i z e θ 0, θ 1 J (θ 0, θ 1)

$\mathop{minimize}_{{\theta}_{0},{\theta}_{1}}J(\theta_0, \theta_1)$

3、代价函数的轮廓图
Cost Function

4、代价函数的等高线图

代价函数的等高线图中轴线是 ${\theta}_0,{\theta}_1$ ，这些椭圆就是代价函数曲线，在同一椭圆里的代价函数值 $J({\theta}_0,{\theta}_1)$ 都是一样的，所以代价函数值最小的地方在于椭圆曲线的中心点。

三、梯度下降（Gradient Descent）

3.1 梯度下降算法

1、梯度下降是一个用来求函数最小值的算法，我们使用梯度下降算法来求出代价函数的最小值。

2、梯度下降算法描述：
（1）首先对（ ${\theta}_0,{\theta}_1,...,{\theta}_n$ ）赋值，这个值可以是随机的，也可以让（ ${\theta}_0,{\theta}_1,...,{\theta}_n$ ）是一个全零的向量。
（2）改变（ ${\theta}_0,{\theta}_1,...,{\theta}_n$ ）的值，使得 $J({\theta}_0,{\theta}_1,...,{\theta}_n)$ 按梯度下降的方向进行减少。

3、梯度下降算法演示：

这是一个表示参数 $({\theta}_0,{\theta}_1)$ 与误差函数 $J({\theta}_0,{\theta}_1)$ 的轮廓图，红色的部分是表示 $J({\theta}_0,{\theta}_1)$ 有着比较高的取值，我们需要的是，能够让 $J({\theta}_0,{\theta}_1)$ 的值尽量的低。也就是深蓝色的部分。
梯度下降法的第一步是给 $({\theta}_0,{\theta}_1)$ 给一个初值，假设随机给的初值是在图上的十字点。
然后我们将 $({\theta}_0,{\theta}_1)$ 按照梯度下降的方向进行调整，就会使得 $J({\theta}_0,{\theta}_1)$ 往更低的方向进行变化，如图所示，算法的结束将是在 $({\theta}_0,{\theta}_1)$ 下降到无法继续下降为止。

当然，可能梯度下降的最终点并非是全局最小点，可能是一个局部最小点，可能是下面的情况：

这张图就是描述的一个局部最小点，这是我们重新选择了一个初始点得到的。

4、批量梯度下降算法公式
repeat until convergence:

θ j : = θ j - α \partial \partial θ j J (θ 0, θ 1, . . ., θ n)

$\theta_j := \theta_j - \alpha \frac{\partial}{\partial \theta_j} J(\theta_0, \theta_1, ... , \theta_n)$

其中 $\alpha$ 是学习率（learning rate），它控制我们以多大的幅度更新这个参数 $\theta_j$ ，如果 $\alpha$ 很小，那么我们需要很多步计算才能到达全局最低点，如果 $\alpha$ 很大，那么梯度下降算法就会使得我们越过最低点，离最低点越来越远。

在梯度下降算法时，当我们更新 $\theta_0, \theta_1, ... , \theta_n$ 时，需要同时更新。

3.2 单变量线性回归算法（Gradient Descent For Linear Regression）

1、单变量线性模型

h θ (x) = θ 0 + θ 1 x J (θ 0, θ 1) = 1 2 m \sum i = 1 m (h θ (x i) - y i) 2 m i n θ 0, θ 1 J (θ 0, θ 1)

$\begin{aligned} & h_{\theta}(x)={\theta}_{0}+{\theta}_{1}x \newline & J(\theta_0, \theta_1) = \dfrac {1}{2m} \displaystyle \sum _{i=1}^m \left (h_\theta (x_{i}) - y_{i} \right)^2 \newline & \mathop{min}_{{\theta}_{0},{\theta}_{1}}J(\theta_0, \theta_1) \end{aligned}$
2、梯度下降算法

repeat} until convergence: {θ j : = θ j - α \partial \partial θ j J (θ 0, θ 1)

$\begin{aligned} \text{repeat} & \text{ until convergence: } \lbrace \newline & \theta_j := \theta_j - \alpha \frac{\partial}{\partial \theta_j} J(\theta_0, \theta_1) \newline \rbrace& \end{aligned}$
3、单变量线性回归算法

repeat until convergence: {θ 0 : = θ 1 : =} θ 0 - α 1 m \sum i = 1 m (h θ (x i) - y i) θ 1 - α 1 m \sum i = 1 m ((h θ (x i) - y i) x i)

$\begin{aligned} \text{repeat until convergence: } \lbrace & \newline \theta_0 := & \theta_0 - \alpha \frac{1}{m} \sum\limits_{i=1}^{m}(h_\theta(x_{i}) - y_{i}) \newline \theta_1 := & \theta_1 - \alpha \frac{1}{m} \sum\limits_{i=1}^{m}\left((h_\theta(x_{i}) - y_{i}) x_{i}\right) \newline \rbrace& \end{aligned}$
4、单变量线性回归算法图解