【机器学习算法】线性回归以及手推logistic回归

一,基本形式:

在样本集D中有n个样本,即。其中每个样本x有d个属性描述, x = (x1;x2;...;xd),其中xi表示的是第i个属性上的取值,线性模型试图学得一个通过属性的线性组合来进行预测的函数,即:


其中w,b是要训练的参数, w = (w1;w2;...;wd),w,b学得之后,模型就可以确定。这边是线性模型的一般形式。


二,线性回归

对于给定的数据集 D,线性回归试图学得一个线性模型以尽可能的预测实值输出标记。

现在假定数据集D中的数据属性只有一个,那么此时要求的参数只有w和b两个,即有: f(xi) = wxi + b 使得f(xi) = yi

我们使用“最小二乘法”来使求解上式中的w和b。

最小二乘法是基于均方误差最小化来进行模型求解的方法,最小二乘法试图找到一条直线,使所有的样本到直线上的欧式距离之和最小。均方误差为E(w,b):

有:

求解w和b使E(w,b)最小化的过程,称为线性回归模型的最小二乘“参数估计”。然后对E(w,b) 分别求导,得到:

然后另上面两式为0,可得到w和b最优的闭式解:


       

当然大部分情况下是x不止一个属性,甚至其属性的数目多于样本量。此时会解出多个最优解都能使得均方误差最小,那么选择哪一个解作为输出将由学习算法的归纳偏好决定,常见的做法是引入正则化。

也可模型预测值逼近y的衍生物,比如示例所对应的输出标记是在指数尺度上的变化,那么可以将输出标记的对数作为线性模型逼近的目标:

lny = w*x + b

这就是“对数线性回归”。


这样得到的模型是“广义线性模型”,其中函数g(.)称为“联系函数”。显然。对数线性回归是广义线性回归在 g(.) = ln(.) 的特例。


三,对数几率回归(逻辑回归)

对于分类的问题,从上一节中,我们可以知道,只需找到一个单调可微函数将分类任务的真实标记y与线性回归模型的预测值联系起来就可以。现在仅考虑二分类的问题,对于二分类问题来说理想的函数是“单位阶跃函数”,但是由于其不连续,因此一般采用sigmoid函数来作为替代,两个函数的图如下所示:


那么对数几率函数正是这样一个替代函数:

   将z值代入到公式中得到:                                               



如何确定式中的w和b,将y视作类后验概率估计p(y=1|x),则可写为:


式3.27是凸函数,因此可以用梯度下降等方法来求解。


四,多分类学习

现实中经常遇到多分类学习任务,有些二分类学习方法可以推广到多分类任务中,一般的使用二分类任务就可以解决多分类问题了。使用“拆解法”:即将多分类问题拆分为若干个二分类任务求解。常见的有一对一,和一对多。




评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

一杯拿铁go

你的打赏是我更新最大的动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值