首先介绍线性回归,然后引入局部平滑技术,更好地拟合数据。接着探讨回归在“欠拟合”情况下的缩减(shrinkage),探讨偏差和方差的概念。
一、用线性回归找到最佳拟合直线
优点:结果已于理解,计算上并不复杂。
缺点:对非线性的数据拟合不好。
使用数据类型:数值型和标称型。
回归方程(regression equation),回归系数(regression weights),求回归系数的过程就是回归。说到回归,一般都是指线性回归(linear regression),还存在非线性回归模型。
假定输入数据存放在矩阵X中,而回归系数存放在向量
∑i=1m(yi−xTiw)2
用矩阵表示还可以写成(Y−Xw)T(Y−Xw),如果对w求导,得到XT(Y−Xw),令其等于零,解出w如下(这里的