线性模型是比较基础也比较简单的一类模型,我在前面没有提及,在这篇文章里面介绍一下一些线形的模型。
基本形式
所谓线性模型就是用于预测的模型是线性的,可以写成以下的形式
其中w=(w1;w2;⋯;wd)
在有的地方也有另一种形式,比如
就是相当于把代表斜率的w和
基本最小二乘(Least Sqaures)
基本的最小二乘的形式就是
就是求出令模型的平方误差最小的w。
对于一维的情况,就是以前在统计学中学习过的最小二乘法,下面介绍包含一维的多元线性回归
对于一个数据集
令Ew=∥Xw−y∥22,那么我们求Ew对w的偏导数,可得
当XTX为满秩矩阵或者正定的时候,有
这样我们就解决了上面的优化问题,但是有时候XTX不是满秩的就是变量数过多,或者数据量太少的时候,w可以有很多解,这时候需要引入正则化项,通过正则化的归纳偏好来决定
另外基本的最小二乘有个很大的缺点,即使数据集的分布真的是线性的,最后的解受噪声(或者叫离群点)的影响很大。一个相差很大的噪声点可以很大的影响最后的模型,这个跟平均值有点类似。
岭回归(Rige Regression)
对于
注意正则化项∥w∥用的是2范数,那么这有什么用?
我们求解(2)可以得到
XTX+αI能够一定程度上解决上面提到的求逆的问题。
岭回归的性质:
(1) α=0为最小二乘回归
(2) α 越大,w各个分量趋向于0
上图为随着
综合来看,岭回归就是通过放弃部分的信息和精度,获得更合理的结果,更好的数值稳定性。岭回归是一种有偏估计。
LASSO
LASSO的形式和岭估计非常类似,只是正则化项从2范数变成了1范数
LASSO可以产生更为稀疏的解,就是随着α的增长,w中一直可能会产生0。
下面两幅图描述了岭回归和LASSO的解的分布,图中的
上图是岭回归的解的情况,解就是等高线和圆相切的地方
上图是LASSO的解的情况,可以看到有一个分量为0,这就是解的稀疏性的由来。
逻辑斯谛回归(对数几率回归)
线性模型是否可以用来分类?这里引入对数几率回归,考虑二分类任务,输出类别
Sigmoid函数
带入z可得
经过变换可得
将y视为样本为正例的可能性,那么1-y是为反例的可能性 y1−y称为几率,它的对数称为对数几率即lny1−y
所以可以看到,逻辑斯蒂模型是通过线性模型拟合输出值的对数几率
然后我们可以得到样本为正例的概率其实就是y,那么有
上面我们有了表达式,然后就可以用极大似然法来估计参数,令π(x)=p(y=1|x),并且采用将参数b写进
通过梯度下降或者牛顿法之类的优化算法可以求解上面的优化问题,从而得到w的估计值。
以上就是列出的一些线性模型以供参考,还有其他很多的线性模型的变体,感兴趣的可以进一步地查找资料。