回归
1 简介
回归是监督学习的另一个内容。与分类问题不同的是,分类问题的目标变量是标称型数据,或者离散型数据。而回归的目标变量为连续型,也即是回归对连续型变量做出预测。
解决回归问题最直接的办法是依据输入写出一个目标值的计算公式,这样,对于给定的输入,利用该公式可以计算出相应的预测输出。这个公式称为回归方程,而求回归方程显然就是求该方程的回归系数,而一旦有了这些回归系数,再给定输入,就可以将这些回归系数乘以输入值,就得到了预测值。
2 线性回归
线性回归,简单而言,就是将输入项分别乘以一些常量,再将结果加起来得到输出。假设输入数据存放在矩阵 X X 中,而回归系数存放在向量
中,那么对于给定的数据 x1 x 1 ,预测结果将会通过 y=XTX y = X T X 给出。那么,如何才能够找出最佳的回归系数向量 w w 呢?
很容易想到使用最小化误差的
,但是这里的误差为预测 y y 值和真实
值的差值,使用该误差的简单累加将会出现正差值和负差值的相互抵消,所以,我们可以采用平方误差来进行度量。即:
这样,用矩阵表示可以写成 (y−Xw)T(y−Xw) ( y − X w ) T ( y − X w ) .因为要求函数的极小值,再对