1 机器学习定义
机器学习两种主要类型:监督学习和无监督学习,强化学习也是机器学习的一种类型
监督学习
关键特征:提供学习算法实例以供学习
监督学习算法两种主要类型:
- regression(回归):regression algorithm,predict number
- classification(分类):class、category=output,predict categories
无监督学习
clustering algorithm(聚类):takes data without labels and tries to automatically group them into clusters
anomaly detection:异常检测
dimensionality reduction:降维
2 线性回归模型
参考视频:
线性回归模型

要训练模型,需将训练集{监督学习的训练集包括输入特征(例如房子大小)和输出目标(例如房屋价格)}提供给学习算法
代价函数
cost function

loss function 和 cost function :
损失函数通常用于衡量单个训练样本的预测值与实际值之间的差异。
成本函数通常用于衡量整个训练数据集的平均损失。
理解代价函数
3 梯度下降
简单介绍
一种更系统的找到w、b使代价函数最小的算法
不是全局最优,是下一步最优
学习率(learning rate):介于0~1之间,控制下坡时步幅的大小

梯度下降实现
Implementing Gradient Descent
下坡的步骤:下坡的方向(导数项,derivative term),下坡的步幅(学习率,learning rate)
重点:知道"同时实现"的正确操作
梯度下降理解
Gradient Descent Intuition

学习率
learning rate
很显然,学习率过小,收敛会很慢;学习率过大,①可能无法收敛②可能震荡,无法到达最小值
尽管学习率固定,但在梯度下降过程中,斜率越来越小,步幅也就自动也越来越小
这里提到的梯度下降其实是批量梯度下降(batch gradient descent),批量梯度下降会用到整个数据集(entire training set),也有一些其他的梯度下降算法,用到的是子数据集(subsets)。
疑问
实现360°寻找最陡处
多变量时,极小值和最小值
如果可以得到解析解的话,把所有导数为0的点求出来,取最小值对应的自变量值
极值和最值的关系