概念
线性回归假设输出变量是若干输入变量的线性组合,并根据这一关系求解线性组合中的最优系数。简单来说就是探索X和Y之间线性变量关系的函数
在众多回归分析的方法里,线性回归模型最易于拟合,其估计结果的统计特性也更容易确定,因而得到广泛应用。而在机器学习中,回归问题隐含了输入变量和输出变量均可连续取值的前提,因而利用线性回归模型可以对任意输入给出对输出的估计。
模型
假定一个实例可以用列向量 x=(x1;x2;⋯,xn) 表示,每个 xi 代表了实例在第 i 个属性上的取值,线性回归的作用就是习得一组参数 wi,i=0,1,⋯,n,使预测输出可以表示为以这组参数为权重的实例属性的线性组合。如果引入常量 x0=1,线性回归试图学习的模型就是
在训练集上确定系数 wi 时,预测输出 f(x) 和真实输出 y 之间的误差是关注的核心指标。在线性回归中,这一误差是以均方误差来定义的。
当线性回归的模型为二维平面上的直线时,均方误差就是预测输出和真实输出之间的欧几里得距离,也就是两点间向量的 L2 范数。而以使均方误差取得最小值为目标的模型求解方法就是最小二乘法,其表达式可以写成
式