一,基本形式:
在样本集D中有n个样本,即。其中每个样本x有d个属性描述, x = (x1;x2;...;xd),其中xi表示的是第i个属性上的取值,线性模型试图学得一个通过属性的线性组合来进行预测的函数,即:
其中w,b是要训练的参数, w = (w1;w2;...;wd),w,b学得之后,模型就可以确定。这边是线性模型的一般形式。
二,线性回归
对于给定的数据集 D,线性回归试图学得一个线性模型以尽可能的预测实值输出标记。
现在假定数据集D中的数据属性只有一个,那么此时要求的参数只有w和b两个,即有: f(xi) = wxi + b 使得f(xi) = yi
我们使用“最小二乘法”来使求解上式中的w和b。
最小二乘法是基于均方误差最小化来进行模型求解的方法,最小二乘法试图找到一条直线,使所有的样本到直线上的欧式距离之和最小。均方误差为E(w,b):
则有:
求解w和b使E(w,b)最小化的过程,称为线性回归模型的最小二乘“参数估计”。然后对E(w,b) 分别求导,得到:
然后另上面两式为0,可得到w和b最优的闭式解:
当然大部分情况下是x不止一个属性,甚至其属性的数目多于样本量。此时会解出多个最优解都能使得均方误差最小,那么选择哪一个解作为输出将由学习算法的归纳偏好决定,常见的做法是引入正则化。
也可模型预测值逼近y的衍生物,比如示例所对应的输出标记是在指数尺度上的变化,那么可以将输出标记的对数作为线性模型逼近的目标:
lny = w*x + b
这就是“对数线性回归”。
这样得到的模型是“广义线性模型”,其中函数g(.)称为“联系函数”。显然。对数线性回归是广义线性回归在 g(.) = ln(.) 的特例。
三,对数几率回归(逻辑回归)
对于分类的问题,从上一节中,我们可以知道,只需找到一个单调可微函数将分类任务的真实标记y与线性回归模型的预测值联系起来就可以。现在仅考虑二分类的问题,对于二分类问题来说理想的函数是“单位阶跃函数”,但是由于其不连续,因此一般采用sigmoid函数来作为替代,两个函数的图如下所示:
那么对数几率函数正是这样一个替代函数:
将z值代入到公式中得到:
如何确定式中的w和b,将y视作类后验概率估计p(y=1|x),则可写为:
式3.27是凸函数,因此可以用梯度下降等方法来求解。
四,多分类学习
现实中经常遇到多分类学习任务,有些二分类学习方法可以推广到多分类任务中,一般的使用二分类任务就可以解决多分类问题了。使用“拆解法”:即将多分类问题拆分为若干个二分类任务求解。常见的有一对一,和一对多。