吴恩达机器学习笔记(一)

1 机器学习定义

机器学习两种主要类型:监督学习和无监督学习,强化学习也是机器学习的一种类型

监督学习

关键特征:提供学习算法实例以供学习

监督学习算法两种主要类型:

  • regression(回归):regression algorithm,predict number
  • classification(分类):class、category=output,predict categories

无监督学习

clustering algorithm(聚类):takes data without labels and tries to automatically group them into clusters

anomaly detection:异常检测

dimensionality reduction:降维

2 线性回归模型

参考视频:

线性回归模型

训练集的样子
要训练模型,需将训练集{监督学习的训练集包括输入特征(例如房子大小)和输出目标(例如房屋价格)}提供给学习算法

代价函数

cost function

平方误差成本函数是线性回归中应用最广泛的

loss function 和 cost function :

损失函数通常用于衡量单个训练样本的预测值与实际值之间的差异。

成本函数通常用于衡量整个训练数据集的平均损失。

理解代价函数

3 梯度下降

简单介绍

一种更系统的找到w、b使代价函数最小的算法

不是全局最优,是下一步最优

学习率(learning rate):介于0~1之间,控制下坡时步幅的大小

w、b初始化的不同,可能会抵达不同的局部最低点

梯度下降实现

Implementing Gradient Descent

下坡的步骤:下坡的方向(导数项,derivative term),下坡的步幅(学习率,learning rate)

重点:知道"同时实现"的正确操作

梯度下降理解

Gradient Descent Intuition

其实从这个图里更能理解学习率代表步长的原因,△y = k(导数项)x  △x(学习率)

学习率

learning rate

很显然,学习率过小,收敛会很慢;学习率过大,①可能无法收敛②可能震荡,无法到达最小值

尽管学习率固定,但在梯度下降过程中,斜率越来越小,步幅也就自动也越来越小

这里提到的梯度下降其实是批量梯度下降(batch gradient descent),批量梯度下降会用到整个数据集(entire training set),也有一些其他的梯度下降算法,用到的是子数据集(subsets)。

疑问

实现360°寻找最陡处

多变量时,极小值和最小值

如果可以得到解析解的话,把所有导数为0的点求出来,取最小值对应的自变量值

极值和最值的关系

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值