吴恩达机器学习公开课学习笔记（一）章节23

最新推荐文章于 2019-05-08 20:26:49 发布

原创最新推荐文章于 2019-05-08 20:26:49 发布 · 589 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #线性回归 #代价函数

机器学习（吴恩达课程）专栏收录该内容

4 篇文章

订阅专栏

本文是吴恩达机器学习课程的学习笔记，主要介绍线性回归和梯度下降算法。首先，文章阐述了线性回归的基本概念，包括映射函数hθ(x)和代价函数J(θ0,θ1)。接着，详细讲解了梯度下降法，特别是其数学表达式和局部最优点的概念，并讨论了学习速率α的影响。最后，讨论了线性回归模型中梯度下降的具体实现步骤和矩阵运算的应用。" 113550218,10535992,Windows7+CUDA9.2 PyTorch安装教程：Miniconda+Python3.7,"['Python', '深度学习', 'PyTorch', 'CUDA', '安装指南', 'Windows开发']

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

公开课链接： https://study.163.com/course/courseLearn.htm?courseId=1004570029#/learn/video?lessonId=1049101127&courseId=1004570029

一些规范表达形式

训练集中样本数目: $m$
变量： $X$ ,自变量的第i个样本： $X^{(i)}$
目标： $Y$ ,目标的第i个样本： $Y^{(i)}$
映射函数： $h$ ,hypothesis,把 $x\rightarrow y$ ,表达形式： $h_\theta(x)=\theta_0+\theta_1x$ (线性函数)
声明符号： $: =$

线性回归／单变量线性回归

映射函数： $h_\theta(x)=\theta_0+\theta_1x$
$\theta_0和\theta_1$ 为模型参数（parameters of model）
优化过程就是最小化函数： $\min_{\theta_0,\theta_1} \frac{1}{2m}\sum_{i=1}^m|h_\theta(x^{(i)})-y^{(i)}|^2$ 最小化误差平方和
系数 $\frac{1}{2m}$ 是为了让数值不那么大
为了让这个概念更明晰，所以定义了代价函数（cost function）
代价函数 $J(\theta_0,\theta_1)$ : $J(\theta_0,\theta_1)=\frac{1}{2m}\sum_{i=1}^m|h_\theta(x^{(i)})-y^{(i)}|^2$
目标就是minimize cost function，代价函数也被称作平方误差函数（squared error function）

代价函数

Hypothesis: $h_\theta(x)=\theta_0+\theta_1x$
Parameters: $\theta_0和\theta_1$
Cost function: $J(\theta_0,\theta_1)=\frac{1}{2m}\sum_{i=1}^m|h_\theta(x^{(i)})-y^{(i)}|^2$
Goal: $\min_{\theta_0,\theta_1}J(\theta_0,\theta_1)$
每一个不同的参数对应着不同的Hypothesis function，我们就可以算出对应的cost function $J(\theta_0,\theta_1)$ ,
当只有一个参数时，画代价函数的图像可以直接画函数图像，
有两个参数时，可以画等曲面图。在这里插入图片描述
或者等高线图

梯度下降算法

问题综述：
have some function $J(\theta_0,\theta_1)$ ,want to $\min_{\theta_0,\theta_1}J(\theta_0,\theta_1)$
梯度下降得到的是局部最优点在这里插入图片描述

梯度下降的数学表达方式

Gradient descent algorithm
repeat until convergence{
$\theta_j :=\theta_j-\alpha\frac{\partial}{\partial \theta_j}J(\theta_0,\theta_1)$ (for j = 0和1)
}
correct（正确的思路）:simultaneous update（需要同时更新）
$:=\theta_0-\alpha\frac{\partial}{\partial \theta_j}J(\theta_0,\theta_1)$
$:=\theta_1-\alpha\frac{\partial}{\partial \theta_j}J(\theta_0,\theta_1)$
$\theta_0 := temp0$
$\theta_1 := temp1$
$\alpha$ 叫做learning rate:学习速率，控制以多大的幅度更新J

incorrect（不正确的思路）
这种算法可能也能算出正确的结果，但是不是人们常说的梯度下降法。
$:=\theta_0-\alpha\frac{\partial}{\partial \theta_j}J(\theta_0,\theta_1)$
$\theta_0 := temp0$
$:=\theta_1-\alpha\frac{\partial}{\partial \theta_j}J(\theta_0,\theta_1)$
$\theta_1 := temp1$

求偏导数

$\alpha$ 的意义和大小：如果 $\alpha$ 太小，梯度下降的过程就会很慢，如果 $\alpha$ 太大，梯度可能可能不会收敛，因为会跳过最小值。

局部最优点

因为局部最优点的导数（derivative term）等于0，
$\alpha$ 不变也能收敛到局部最优点的原因，因为倒数越来越趋近于0，所以挪动会越来越小在这里插入图片描述

线性回归的梯度下降

梯度下降算法：
repeat until convergence{
$\theta_j :=\theta_j-\alpha\frac{\partial}{\partial \theta_j}J(\theta_0,\theta_1)$ (for j = 0和1)
}
线性回归模型：
$h_\theta(x)=\theta_0+\theta_1x$
$J(\theta_0,\theta_1)=\frac{1}{2m}\sum_{i=1}^m|h_\theta(x^{(i)})-y^{(i)}|^2$

求导：
$\frac{\partial}{\partial \theta_j}J(\theta_0,\theta_1) = \frac{\partial}{\partial \theta_j}\frac{1}{2m}\sum_{i=1}^m|h_\theta(x^{(i)})-y^{(i)}|^2\\=\frac{\partial}{\partial \theta_j}\frac{1}{2m}\sum_{i=1}^m(\theta_0+\theta_1x^{(i)}-y^{(i)})^2$
求出来的导数：
$\theta_0,j=0:\frac{\partial}{\partial \theta_j}J(\theta_0,\theta_1)= \frac{1}{m}\sum_{i=1}^m(h_\theta(x^{(i)})-y^{(i)})$
$\theta_1,j=1:\frac{\partial}{\partial \theta_j}J(\theta_0,\theta_1)= \frac{1}{m}\sum_{i=1}^m(h_\theta(x^{(i)})-y^{(i)})x^{(i)}$

线性回归中的梯度下降算法
repeat until convergence{
$\theta_0 :=\theta_0-\alpha \frac{1}{m}\sum_{i=1}^m(h_\theta(x^{(i)})-y^{(i)})$
$\theta_1 :=\theta_1-\alpha \frac{1}{m}\sum_{i=1}^m(h_\theta(x^{(i)})-y^{(i)})x^{(i)}$
}

凸函数

不太正规地解释凸函数是一个弓形函数，没有局部最优解，只有一个全局最优解。

Batch Gradient Descent

“Batch”：each step of gradient descent uses all training examples

矩阵与向量

矩阵向量定义

Matrix：rectangular array of numbers
Dimension of matrix: number of rows*number of columns,比如矩阵 $A\in\Re^{4\times2}$
表示矩阵指定元素 $A_{ij}:i^{th}row,j^{th}column$
Vector: an nx1 matrix
用 $y_i=i^{th}$ element
通常用小写字母表示向量，大写字母表示矩阵。