线性回归可以说是最简单模型。
给定训练数据 D={ xi, yi} i=1,2,...n,其中 ,回归学习一个从输入x 到输出y的映射 f
且f是一个线性函数 y= f (x|w)=w.Tx
如果损失函数采用RSS
J(w) = ∑(yi -w.Txi)^2 i=1,2...n
如果没有正则项就等价于最小二乘线性回归
正则项采用L2时得到Ridge回归模型,正则项为L1得到Lasso模型。正则项是为了让模型更简单。因为实际中可能有很多个线性模型满足我们的数据特性,但其中哪个最好就让我们的正则项来确定。给w加上限制就能得到我们最想要的那个模型。
我们分析下线性回归模型的概率解释:
最小二乘(线性)回归等价于极大似然估计
正则(线性)回归等价于高斯先验(L2正则)或Laplace先 验下(L1正则)的贝叶斯估计
其中ε为线性预测和真值之间的残差
假设
,即
,那么用最大似然估计推导:
![]()
![]()
极大似然估计等价于极小负log似然损失(negative log likelihood, NLL) 对上面公式取相反数可看出来等价于下面最小二乘
![]()
假设
,
,那么用最大后验估计推导:
![]()
![]()
![]()
此时就等价于Ridge回归模型
假设
,
,同样采用后验估计推导:
![]()
![]()
![]()
此时等价于Lasso回归模型
这里值讲解下最小二乘的SVD优化
J(w) = ||y-Xw||^2
等价于求 y=Xw
如果X是方正,可得到w = X-1w (X-1表示X的逆)
如果X不可逆,可以使用SVD进行分解 X = U∑V.T 带入上式可得。