本讲内容:
- 线性回归
- 梯度下降
- 正规方程组
- 线性回归
首先看一组关于房价的数据,该数据集只有一个特征。
living areas(feet2) | price($1000s) |
2104 | 400 |
1416 | 232 |
1534 | 315 |
852 | 178 |
1940 | 240 |
.. | .. |
下面介绍几个符号概念:
监督学习的一般流程:
在该数据集上,假设
为了使问题更有趣,引入房间数的特征,则
为房屋面积,
为房间数,那么有
living areas(feet2) | #bed rooms | price($1000s) |
2104 | 3 | 400 |
1416 | 2 | 232 |
1534 | 2 | 315 |
852 | 1 | 178 |
1940 | 3 | 240 |
.. | .. | .. |
为简便起见,令
,则有
n为特征数,
为参数集。
然后,令
目标是
。
首先,我们将
从某个值开始(比如说零向量),然后不断更新
以减小
。
- 梯度下降算法
更新
的算法称之为梯度下降算法,其思想如下:
因此,按
的方式更新
,直到收敛。
以以上推导为基础,分别有批处理梯度下降和随机梯度下降算法两种方法。
批处理梯度下降算法:
----------------------------------------------------
随机梯度下降算法:
{
for j =1 to m
{
(for all i)
}
}
批处理和随机梯度下降算法的比较:
批处理梯度下降算法每次更新需要对所有的训练集进行计算,计算量较大。
而随机梯度下降算法每次更新只用一组训练数据,收敛时会在最小值附近徘徊。
- 正规方程式
下面介绍第二种最小化
的方法。
对一个由mxn的矩阵映射到实数的函数f,可以这样定义
,f对A的导数为:
如果
,则
。
下面不加证明地陈述几个事实:
if 
最小二乘法回顾
为推导方便,设计下面几个符号。
因为
令
则