线性回归
0. 本质和概论
0.1 本质
线性回归:利用称为线性回归方程的最小二乘函数对一个或多个自变量和因变量之间关系进行建模的一种回归分析。
(最小二乘 = 平方)
概括地说,线性回归模型就是对所有特征添加一个权重,之后求和,最后再添加一个我们称为偏置项的常数,以此进行预测。(瞬间联想到神经网络)
0.2 概念/术语
线性回归模型是:利用线性函数对一个或多个自变量 (x
或 (x1,x2,…xk))和因变量(y
)之间的关系进行拟合的模型。
- 正确理解”线性“:直线、平面…
注意:“线性”的意思并非是 y 和 x 为直线关系!
线性函数的定义是:一阶(或更低阶)多项式,或零多项式。
当线性函数只有一个自变量时,y = f(x),这里f(x) 的函数形式有三种:
- f(x) = a + bx (a、b 为常数,且 b≠0)—— 一阶多项式;
- f(x) = c (c为常数,且 c≠0) —— 零阶多项式;
- f(x) = 0 —— 零多项式;
但如果有多个独立自变量,y=f(x1,x2,…,xk) 的函数形式则是:
f(x1,x2,…,xk)=a+b1x1+b2x2+…+bkxk
也就是说,只有当训练数据集的特征是一维的时候,线性回归模型可以在直角坐标系中展示,其形式是一条直线。
结论:
特征是一维的,线性模型在二维空间构成一条直线;
特征是二维的,线性模型在三维空间中构成一个平面;
若特征是三维的,则最终模型在四维空间中构成一个体,以此类推。
注:如果不考虑空间维数,这样的线性函数统称为超平面。
注意:特征可以构造,也就是说只有一个特征 x,也可以变为多个:
-
回归
回归分析用于寻找最佳拟合线,使得尽可能多的数据点位于这条线附近(或这条线上)。 -
变量 y :想要预测的变量
变量 y = 因变量 = 响应变量 = 目标 = 结果 -
自变量:用于预测y的变量
自变量 = 自变量X = 特征 = 属性 -
回归系数:回归线的斜率(一元)
回归系数 = 参数估计值 = 权重 = 斜率(一元)
注:当只存在一个预测变量(x)时,该预测变量的标准化回归系数也被称为相关系数 ,记作 r
-
拟合值:拟合得到的估计值 y ^ \widehat{y}