1. 基本形式
1.1 公式
f(x)=wTx+b
其中,x=(x1;x2;...;xd),xi是x在第
1.2 特点
- 线性模型形式简单、易于建模,有很好的可解释性
- 功能强大的非线性模型可在线性模型的基础上通过引入层级结构或高维映射而得。
2. 线性回归
2.1 二元线性回归
(w∗,b∗)=argmin(w,b)∑i=1m(f(xi)−yi)2=argmin(w,b)∑i=1m(yi−wxi−b)2
其中,w∗为w的解
基于均方误差最小化来进行模型求解的方法称为最小二乘法
将
w=∑mi=1yi(xi−x¯)∑mi=1x2i−1m(∑mi=1xi)2
2.2 多元线性回归
令w^=(w;b),X=⎡⎣⎢⎢⎢⎢⎢x11x21⋮xm1x12x22⋮xm2⋯⋯⋱⋯x1dx2d⋮xmd11⋮1⎤⎦⎥⎥⎥⎥⎥,y=(y1;y2;…;ym)
则wTxi+b=Xw^
则
w^∗=argminw^(y−Xw^)T(y−Xw^)
令Ew^=(y−Xw^)T(y−Xw^),对w^求导得到
∂Ew^∂w^=2XT(Xw^−y)
令上式为零可得w^最优解的闭式解。
若XTX为满秩矩阵或正定矩阵时,w^∗=(XTX)−1XTy,令x^∗=(xi;1),则最终学得的多元线性回归模型为
f(xi^)=xi^T(XTX)−1XTy
若XTX不是上述矩阵,如变量数超过样例数,矩阵不满秩,此时可以解出多个w^,它们都能使均方误差最小化,选择哪一个解作为输出,将由学习算法的归纳偏好决定,常见的做法是引入正则化。
2.3对数线性回归(log-linear regression)
lny=wTx+b
2.4广义线性模型
y=g−1(wTx+b)
其中,g(⋅)为单调可微函数,称为联系函数
3. 对数几率回归(logistic regression)
3.1 公式
对于二分类问题,上述g(⋅)函数可取Sigmoid函数
y=11+e−(wTx+b)
类似于对数线性回归式,得
lny1−y=wTx+b
其中y为样本
3.2 特点
- 直接对分布可能性建模,无需事先假设数据分布,避免了假设分布不准确所带来的问题
- 它不仅预测出“类别”,而是可得到近似概率预测,对于许多利用概率辅助决策的任务很有用
- 对率函数是任意阶可导的凸函数,有很好的数学性质,现有的许多数值优化算法都可直接用于求取最优解
参考书籍: 《机器学习》 周志华