机器学习课堂笔记5

本文探讨了机器学习的基础概念,包括机器何时及为何能够学习,并介绍了两种核心算法——线性回归与逻辑回归的工作原理及其应用场景。同时,文章还讨论了如何优化学习过程以提高预测准确性。

1,机器什么时候可以学习

2,为什么机器可以学习

3,机器怎么学习

4,机器怎么样才能学得更好


机器学习要解决的两个问题:

1,要保证Ein和Eout是接近的,即算法通过已有样本学习完后产生的错误和样本外的错误是接近的,这样我们才能相信通过样本学习出来的,输入和输出的关系g是有意义的

2,要尽量缩小Ein,即算法要想办法找到假设集合H中最好的假设g,将g应用在样本中得到的Ein是最小的


第1个问题可以用VC维进行理论保证:当假设集合的vc维dvc不是无限的,而样本数量N足够大时,我们可以认为Ein和Eout是接近的。从笔记5开始记录一些算法,它们如何得到最小的Ein。


首先重温一下比较完整的机器学习框架


1,数据样本集D中包含输入X和输出Y(X,Y),X服从某个(未知的)分布P(X). 

2,Y和X之间存在某种关系f(X). 但是由于现实数据中总是有噪音noise的存在,所以Y和X的关系存在某种(由噪音引入的)随机性,因此Y服从P(Y|X)=f(x)+noise的分布。

3,设定了假设集合H,期望通过算法A找到最佳的假设g使得g和f是接近的,这就要保证Ein最小

4,为了衡量Ein,需要有一种衡量错误的标准error measure,算法通过衡量不同假设在数据集D上的错误,找到最佳的h


算法一:线性回归

线性回归的解析式:

线性回归用于解决回归问题,其输出空间一般是连续的实数空间。其假设空间(Y与X的关系)公式为:

h(x)=W*X, 其中W和X可以为向量

线性回归的错误衡量标准为平方错误:error=(y'-y)^2

最小化线性回归的Ein:

假设输入是d维的,即X=(x1,x2,...xd), 样本数量=N。线性回归的错误衡量公式是


可以用向量化的方式表示:


平方误差的Ein是连续、可微的凸函数,为找到最好的W使得Ein最小,就是找到W使得Ein的梯度都为0.通过向量微积分可以得到W的解析式为:

 (在X矩阵可逆的情况下。当X不可逆时,可以用数值方法求解)

线性回归与线性分类:

对于一个分类问题

y={-1.+1}; h(x)=sign(WX), err(y',y)=if(y'<>y,1,0), 要优化这个err函数是NP HARD问题,那么是否可以用线性回归来代替分类问题呢(毕竟线性回归的err function是二次函数,是很容易有解析式的)

我们可以证明,对于任何一个问题,用(0,1)错误衡量得到的错误函数值始终是小于平方误差衡量得到的错误函数值的:


而根据Eout和Ein的关系:


所以,如果我们用线性回归来解决分类问题,从VC维上可以保证,如果回归的误差够小,那么分类问题的Eout误差也是足够小的(当然,如果回归的误差很大,就不一定能说明Eout很大,因为classification Ein小于regression Ein)


算法二:逻辑回归

逻辑回归也属于线性模型家族,其输入基本上是X的线性组合,只是使用了sigmoid函数:


其中s=WX,使得输出在(0,1)空间,这样输出可以表示某件事情的概率。

由于这个特性,分类不再是只输出是或不是,逻辑回归相当于是一种软分类的算法。


最大似然估计

逻辑回归的输出代表可y发生的概率,目标函数f(x)=P(Y=1|X). 那么根据我们已经看到的样本(X,Y), 假设对于某一个X1,Y1=1, 我们观察到这一对输入输出对的概率是:

P(X1)*f(X1)。同样的,若X2对应的Y2=-1,观察到这个输出的概率是P(X2)*(1-f(X2)).

对所有X1...XN的样本,我们观察到Y1...YN的概率就是:


似然方程就是:


最大似然的思想认为,如果我们观察到了这一组样本,那它出现的概率是最大的,所以寻找参数W的方法就是,找出参数,让似然方程的值最大。由于似然函数是连乘函数,对其取Log得到连加函数。同时再做一些数学上的处理,我们的目标就变成:



有了错误函数,下一步就是解出满足需求的最优解。最大似然估计的求解方法是梯度下降法,下次笔记会记录梯度下降法和线性分类模型的应用



评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值