3.1 线性模型
线性模型
- (3.1)f(x)=w1x1+w2x2+...+wdxd+bf(x)=w_1x_1+w_2x_2+...+w_dx_d+b \tag{3.1}f(x)=w1x1+w2x2+...+wdxd+b(3.1)
向量形式
- (3.3)f(x)=wTx+bf(x)=w^Tx+b \tag{3.3}f(x)=wTx+b(3.3)
为什么是线性模型呢?
- (补充:PRML 3.1)这里x可以是高阶, 重点是w是线性就行了,如果x也是线性那么会给模型带来局限性,此时可以引入基函数ϕ(x)\phi(x)ϕ(x) (3.2)f(x)=wTϕ(x)+bf(x)=w^T\phi(x)+b \tag{3.2}f(x)=wTϕ(x)+b(3.2)

优点
- 简单,易于建模,可解释性好
3.2 线性回归
线性回归
-
给定数据集D={(x1,y1),(x2,y2),...,(x,,ym)}D=\{(x_1,y_1),(x_2,y_2),...,(x_,,y_m)\}D={(x1,y1),(x2,y2),...,(x,,ym)},其中xix_ixi可以是多维的,yiy_iyi属于实数集.
-
LR试图学一个线性模型去拟合真实值 f(x)=wxi+bf(x)=wx_i+bf(x)=wxi+b 使得 f(xi)≃yif(x_i)\simeq y_if(xi)≃yi
-
离散属性处理:若有“序”,则连续化;否则,转化为 k 维向量
如何确定参数
-
度量函数:这里选用均方误差
- (3.4)E(f;D)=1m∑i=1m(f(xi)−yi)2E(f;D)=\frac{1}{m}\sum_{i=1}^m(f(x_i)-y_i)^2\tag{3.4}E(f;D)=m1i=1∑m(f(xi)−yi)2(3.4)
-
令均方误差最小化,有
- (3.5)(w∗,b∗)=argmin(w,b)∑i=1m(f(xi)−yi)2=argmin(w,b)∑i=1m(yi−wxi−b)2(w^*,b^*)\\=argmin_{(w,b)}\sum_{i=1}^m(f(x_i)-y_i)^2\\=argmin_{(w,b)}\sum_{i=1}^m(y_i-wx_i-b)^2 \tag{3.5}(w∗,b∗)=argmin(w,b)i=1∑m(f(xi)−yi)2=argmin(w,b)i=1∑m(yi−wxi−b)2(3.5)
-
对 E(w,b)=∑i=1m(yi−wxi−b)2E_{(w,b)}=\sum_{i=1}^m(y_i-wx_i-b)^2E(w,b)=∑i=1m(yi−wxi−b)2 进行最小二乘参数估计
- 因为3.5式是凸函数,分别对 w 和 b 求导
- 令导数为0,得闭式解
多元线性回归
- 如果用以上参数估计法,涉及矩阵求逆
- 若 XTXX^TXXTX 满秩或正定,则x^∗=(XTX)−1XTy\hat{x}^*=(X^TX)^{-1}X^Tyx^∗=(XTX)−1XTy
- 若不满秩,则有多个解,此时需看归纳偏好或引入正则化
线性模型的变化
- 对数线性归回
- (3.6)lny=wTx+blny=w^Tx+b \tag{3.6}lny=wTx+b(3.6)
- 更一般的,考虑单调可微函数 g(⋅)g(·)g(⋅),g(⋅)g(·)g(⋅) 称为联系函数,实质是线性回归后映射到另一个函数空间
- (3.7)y=g−1(wTx+b)y=g^{-1}(w^Tx+b) \tag{3.7}y=g−1(wTx+b)(3.7)
3.3 对数几率回归
极大最后一式等于极小它的负数,因为该式是关于β\betaβ高阶可导连续凸函数,所以可以用凸优化理论优化。
总结
线性模型关键是参数是线性的,其中存在两种变化
- 输入可以变换基
- 比如多项式 (x,x2,x3...xnx,x^2 ,x^3...x^nx,x2,x3...xn)
- 这是为了拟合真实数据的变化尺度
- 尺度相当则模型表达会更好
- 输出可以通过联系函数映射到新的空间
- 特别的,当联系函数为 sigmoid function 时,此时的线性回归称为逻辑回归
- 逻辑回归属于判别式模型,采用极大释然进行参数估计,由此引出交叉熵
(后话)参数一多容易过拟合,但参数多能保证模型的表达能力,此时需要引入正则项,可以等于贝叶斯派中引入的先验。
参考
周志华. 机器学习. 3.1/3.2/3.3.
Bishop. Pattern Recognition And Machine Learning. 3.1.
李宏东. 模式分类(译). 2.2贝叶斯决策论.