机器学习基础：监督、无监督、线性回归与逻辑回归-优快云博客

其中a 是学习率（learning rate），它决定了我们沿着能让代价函数下降程度最大的方向向下迈出的步子有多大，在批量梯度下降中，我们每一次都同时让所有的参数减去学习速率乘以代价函数的导数。如果a 太小的话，可能会很慢，因为它会一点点挪动，它会需要很多步才能到达全局最低点。如果a 太大，那么梯度下降法可能会越过最低点，甚至可能无法收敛，下一次迭代又移动了一大步，越过一次，又越过一次，一次次越过最低点。

结合梯度下降法，以及平方代价函数，我们会得出第一个机器学习算法，即线性回归算法。

2.7 梯度下降的线性回归

将梯度下降和代价函数结合，应用于具体的拟合直线的线性回归算法里。

上述称为批量梯度下降。

第2周

4.多变量线性回归(Linear Regression with Multiple Variables）

4.1 多维特征

此时模型中的参数是一个维的向量，任何一个训练实例也都是维的向量，特征矩阵的维度是。因此公式可以简化为：

4.2 多变量梯度下降

找出使得代价函数最小的一系列参数。多变量线性回归的批量梯度下降算法：

开始随机选择一系列的参数值，计算所有的预测结果后，再给所有的参数一个新的值，如此循环直到收敛。

4.3 梯度下降法实践1-特征缩放

面对多维特征问题的时候，要保证这些特征都具有相近的尺度，这将帮助梯度下降算法更快地收敛。尝试将所有特征的尺度都尽量缩放到-1到1之间。

4.5 特征和多项式回归

线性回归并不适用于所有数据，有时我们需要曲线来适应我们的数据，比如一个二次方模型：或者三次方模型：

通常我们需要先观察数据然后再决定准备尝试怎样的模型。另外，我们可以令：

从而将模型转化为线性回归模型。采用多项式回归模型，在运行梯度下降算法前，特征缩放非常有必要。

4.6 正规方程

求解方程来找出使得代价函数最小的参数，正规方程解出向量

梯度下降与正规方程的比较：

梯度下降	正规方程
需要选择学习率α	不需要
需要多次迭代	一次运算得出
当特征数量n 大时也能较好适用	需要求逆如果特征数量n 较大则运算代价大，因为矩阵逆的计算时间复杂度为On3 ，通常来说当n 小于10000 时还是可以接受的
适用于各种类型的模型	只适用于线性模型，不适合逻辑回归模型等其他模型

总结，只要特征变量的数目并不大，标准方程是一个很好的计算参数θ 的替代方法

5.6 向量化

写代码做矩阵乘法，不如用合适的向量化方法来实现。

第3周

6.逻辑回归(Logistic Regression)

6.1 分类问题

在分类问题中，你要预测的变量 y 是离散的值，我们将学习一种叫做逻辑回归。将因变量(dependent variable)可能属于的两个类分别称为负向类（negative class）和正向类（positive class），则因变量，其中 0 表示负向类，1 表示正向类。这个算法的性质是：它的输出值永远在0到 1 之间。这个算法的名字中出现了“回归”使你感到困惑，但逻辑回归算法实际上是一种分类算法，它适用于标签 y 取值离散的情况。