吴恩达机器学习笔记总结

最新推荐文章于 2022-04-08 14:59:01 发布

每天一进步

最新推荐文章于 2022-04-08 14:59:01 发布

阅读量361

点赞数

分类专栏：学习笔记文章标签：机器学习

本文链接：https://blog.youkuaiyun.com/sinat_28228443/article/details/115561344

版权

吴恩达机器学习笔记总结

作为机器学习经典入门课程，吴恩达的Machine Learning课程必定有它重要的一席之位。在19年我也在coursera（链接在此）上修习这门课程并领取了证书，前两个星期又去翻看了之前的笔记和黄海广博士翻译整理的笔记，重新根据自己的理解和关注的知识整理了一版简洁版笔记，方便以后快速回顾。

在这里插入图片描述

文章目录

吴恩达机器学习笔记总结

第一周

引言

机器学习是什么：

	卡内基梅隆大学Tom这么定义机器学习：一个程序被认为能从经验E中学习，解决任务T，达到性能度量值P，
当且仅当，有了经验E后，经过P评判，程序处理T时的性能有所提升。

机器学习可分为监督学习和无监督学习：

监督学习：给学习算法一个包含“正确答案”的数据集，并根据给定标签学习数据中的模式
无监督学习：无监督学习中的数据集没有任何标签，希望从中找到某种结构

单变量线性回归(Linear Regression with One Variable)

模型表示

本次机器学习课程中相关符号定义：

m代表训练集中实例的数量

x代表特征/输入变量

y代表目标变量/输出变量

$(x, y)$ 代表训练集中的实例

$x_i, y_i)$ 代表第 $i$ 个观察实例

从训练集数据和标签数据，根据学习算法得到一个从 $X$ 到 $Y$ 的函数映射 $h$ .
代价函数/cost function

回归模型的代价函数如下，目标选择使得代价函数最小的模型参数：
$J(\theta_0, \theta_1) = \frac{1}{m}\sum_{i=1}^{m}(h_{\theta}(x^{(i)})-y^{(i)})^2$
单变量线性回归模型表示：

模型假设/Hypothesis ： $h_{\theta}=\theta_0+\theta_1x$

参数/Parameters： $\theta_0, \theta_1$

损失函数/Cost Function： $J(\theta_0, \theta_1) = \frac{1}{m}\sum_{i=1}^{m}(h_{\theta}(x^{(i)})-y^{(i)})^2$

优化目标/Goal： $minimize_{\theta_0, \theta_1} J(\theta_0, \theta_1)$

参数选择过程：

随着迭代训练，损失函数变小，模型估计值悦来越逼近真实值：
梯度下降/Gradient Descent

梯度下降是一个用来求函数最小值的算法，背后思想是，开始随机选择一个参数的组合 $a_0, a_1, ...,a_n)$ ，计算代价函数，然后寻找下一个让代价函数值下降最多的参数组合，不断迭代，直到代价函数收敛或达到最大迭代数。

批量梯度下降算法的公式为：

repeat until convergence{
$\theta_j := \theta_j - \alpha \frac{\partial}{\partial \theta_j}J(\theta_0, \theta_1)\ \ \ for\ j=0\ and j=1$ }， $\alpha$ 为学习率。

梯度下家算法迭代过程：随着迭代次数增加，接近局部最低点时，偏导数越来越接近零，梯度下降移动幅度也越来越小。

线性回归梯度下降：

结合梯度下降和线性回归模型：

repeat until convergence{
$\theta_j := \theta_j-\alpha\frac{\partial}{\partial \theta_j}J(\theta_0, \theta_1)\ \ (for \ j=1 \ and j=0)$ }

线性回归模型：
$h_{\theta}=\theta_0+\theta_1x \\ J(\theta)=\frac{1}{2m}\sum_{i=1}^m(h_\theta x^{(i)})-y^{(i)})^2\\ \frac{\partial}{\partial \theta_j}=\frac{\partial}{\partial \theta_j}\frac{1}{2m}\sum_{i=1}^{m}(h_{\theta}(x^{(i)})-y^{(i)})^2 \\ j=0时， \frac{\partial}{\partial \theta_0}J(\theta_0, \theta_1)=\frac{1}{2m}\sum_{i=1}^m (h_\theta(x_{(i)})-y_{(i)}) \\ j=1时: \frac{\partial}{\partial \theta_1}J(\theta_0,\theta_1)=\frac{1}{m}\sum_{i=1}^m ((h_{\theta}(x^{(i)})-y^{(i)})x^{(i)})$
则有线性回归梯度下降：

repeat{
$\theta_0 := \theta_0 - \alpha\frac{1}{m}\sum_{i=1}{m}(h_{\theta}(x^{(i)})-y^{(i)}) \\ \theta_1 := \theta_1 - \alpha\frac{1}{m}\sum_{i=1}{m}((h_{\theta}(x^{(i)})-y^{(i)})x^{(i)})$ }

第2周

多变量线性回归

对于多变量特征：
多变量模型假设为 $h(x)=a_0+a_1x_1+a_2x_2+...+a_n+x_n$
模型参数为 $n + 1$ 维的向量，特征矩阵 $X$ 的维度是 $\times (n+1)$
代价函数：

$J(\theta_0, \theta_1,...,\theta_n)=\frac{1}{2m}\sum_{i=1}^{m}(h_{\theta}(x^{(i)})-y_{(i)})^2$
梯度下降公式：

repeat{

$\theta_j := \theta_j-\alpha\frac{\partial}{\partial \theta_j}\sum_{i=1}^{m}(h_{\theta}(x^{(i)})-y^{(i)})^2$ }

梯度下降前可通过特征缩放，即将所有特征的尺度缩放到-1到1之间，加快收敛。

学习率选择：

可视化迭代次数与代价函数的图来判断算法在何时趋于收敛；

在这里插入图片描述

通常可考虑尝试学习率：0.01，0.03，0.1，0.3，1，3，10

特征和多项式回归：
线性回归并不适用于所有数据，可通过计算特征二次方、三次方等将模型转化为线性回归模型。
正规方程

正规方程通过求解偏导方程来找出使得代价函数最小的参数： $\frac{\partial}{\partial \theta_j}J(\theta_j)=0$

利用正规方程解出向模型参数，正规方程不需要迭代求解，一次性即可得出最优解，但特征数 $n$ 较大则运算代价很大。
$\theta = (X^TX)^{-1}X^Ty$

第3周

逻辑回归 Logistic Regression

分类问题

预测的变量y是离散的值，根据标签数可分为二分类和多分类：

二分类：因变量属于两个类，1/0，即正类或负类

多分类：因变量有三个或以上类别，如动物分类，猫、狗、兔子等
逻辑回归假设
$h_{\theta}(x) = g(\theta^TX)$
$h$ 为模型假设，X为特征向量，g为逻辑函数，也称sigmoid函数，是一个S形非线性映射函数，公式为： $g(z)=\frac{1}{1+e^{-z}}$ ，图像如下：

当 $h_{\theta}>=0.5$ 时，预测 $y = 1$ ；当 $h_{\theta}<0.5$ 时，预测 $y = 0$
判定边界

假设有模型 $h(x)=g(a_0+a_1x_1+a_2x_2)$ ，

参数向量为[-3, 1, 1]，则当 $3+x_1+x_2>=0时$ ，预测 $y = 1$

决策边界为： $3+x_1+x_2=0$

最低0.47元/天解锁文章