定义
线性回归(Linear regression)是一种以线性模型假设来拟合自变量与因变量之间关系的方法。通常来说,当自变量只有一个的情况被称为一元线性回归,自变量大于一个的情况被称为多元线性回归。
一元线性回归如下图所示,线性模型由图中直线表示。
基本原理
- 函数假设:线性函数
- 损失函数:平方损失函数
- 学习方法:
- 最小二乘法
- 梯度下降法
存在自变量为 x 1 , x 2 , . . . , x m x_1,x_2,...,x_m x1,x2,...,xm,因变量为 y y y,
假设 x 1 , x 2 , . . . , x m x_1,x_2,...,x_m x1,x2,...,xm与 y y y之间存在线性关系,且加入误差变量 ε \varepsilon ε,
则线性模型 f ( x ) f(\textbf{x}) f(x)可表示为:
y = w 1 x 1 + w 2 x 2 + . . . + w m x m + b + ε = w T x + ε = f ( x ) + ε y=w_1x_1+w_2x_2+...+w_mx_m+b+\varepsilon=\textbf{w}^{T}\textbf{x}+\varepsilon=f(\textbf{x})+\varepsilon y=w1x1+w2x2+...+wmxm+b+ε=wTx+ε=f(x)+ε,
w = [ w 1 , w 2 , . . . , w m , b ] T , x = [ x 1 , x 2 , . . . , x m , 1 ] T \textbf{w}=[w_1,w_2,...,w_m,b]^{T},\textbf{x}=[x_1,x_2,...,x_m,1]^{T} w=[w1,w2,...,wm,b]T,x=[x1,x2,...,xm,1]T
通过最小二乘法,利用随机抽取的n个样本 ( x ( i ) , y ( i ) ) , i = 1 , 2 , . . . , n (x^{(i)},y^{(i)}),i=1,2,...,n (x(i),y(i)),i=1,2,...,n,对参数 w \textbf{w} w进行估计,得到线性回归模型的目标函数并对其最小化:
min f ∑ i = 1 n ε ( i ) = ∑ i = 1 n ( y ( i ) − f ( x ( i ) ) ) 2 \min \limits_{f} \sum_{i=1}^n\varepsilon^{(i)}=\sum_{i=1}^n (y^{(i)}-f(\textbf{x}^{(i)}))^2 fmin∑i=1nε(i)=∑i=1n(y(i)−f(x(i)))2,
最终表示为
min w ∑ i = 1 n ( y ( i ) − w T x ( i ) ) 2 \min \limits_{\textbf{w}} \sum_{i=1}^n (y^{(i)}-\textbf{w}^{T}\textbf{x}^{(i)})^2 wmin∑i=1n(y(i)−w