台大机器学习笔记(10-11)——Linear Models for Classification&Stochastic Gradient Descent

本文讨论了线性模型在二元及多元分类中的应用,包括线性回归、对数回归及其损失函数特性。介绍了随机梯度下降法与批量梯度下降法的区别,并探讨了非线性转换提升分类效果的方法。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

11 Linear Models for Classification

11.1 Linear Models for Binary Classification

  本节探讨了线性回归与对数回归解决分类问题的可能性。证明的方法是将PLA、线性回归与对数回归的损失函数作一些变化,使之能表现为yx为自变量的损失函数二维图像。其中,PLA的损失函数图像为yx小于0时值为1,大于0时值为0的折线;线性回归的平方差损失函数为过(1,0)(0,1)的二次函数;对数回归的损失函数为过点(0,ln2)的对数函数。在这里将对数回归的损失函数中的对数函数的底由e换为2,使之能过(0,1)
  可以发现,线性回归与对数回归的损失函数都大于0/1损失函数,可以看做是PLA损失函数的上界。故而根据VC维理论,当压低两者的Ein时也会造成0/1损失函数的Eout下降,因此它们可以用于分类问题。
  但很明显的是,线性回归的损失函数在yx大于1后依旧上升,并且在小于1之后也远大于对数回归的损失函数,可以看出线性回归对于压低Eout的效果不如对数回归。

11.2 Stochastic Gradient Descent

  随机梯度下降法,与bat梯度下降法不同的是,随机梯度下降法从数据集中随机选取一个样本,并计算该样本的偏差作为梯度。从公式上看的话,就相当于把1m的系数以及连加的符号去掉。该方法的好处是节省计算资源,坏处是会在最优点附近震荡。
  另外还有一种mini-bat的梯度下降法,它是针对对有限的多个数据进行梯度下降,该算法比SGD和bat梯度下降法快。

11.3 Multicalss via Logistic Regression

  将其中一个类别的样本设为正例,其他为负例,并进行训练,这样如果有K个类别,就训练K次,最后看测试样本在哪个分类器中正例概率最高即分为那一类。该方法的优点是推广性强,只要类似对数回归的分类器都可以这么做,缺点是面对不平衡数据集时可能效果不好。

11.4 Multiclass via Binary Classification

  抽取两两类别的样本并用线性分类器做分类,之后每一个待预测样本都用所有的分类器做预测,并取预测结果最多的那个类别作为样本的类别。这样做的好处在于精度较高,并能适用于所有二分分类器。缺点在于其复杂度是与类别数量的平方相关,所以当类别数量的多时复杂度高。

12 Nonlinear Transformation

12.1 Quadratic Hypothesis

  本节介绍了在线性分类器的基础上构造非线性分类器。方法是将原特征的高次作为新的特征加入特征空间,例如原特征有x1x2两个特征,则可以新加入x21x22以及x1x2作为新特征。以二维平面为例,其原理是在平面上构造一个多项式图形,图形的一边是正例,另一边是负例。

12.2 NonLinear Transform

  以上该方法的本质是构造新的特征空间,以求通过这个特征空间能得到更好的分类效果。

12.3 Price of Nonlinear Transform

  显然,在进行特征空间转换的时候,多项式的转换方式会带来O(Qd)的代价,包括时间以及空间的代价,其中,d是原有的特征维数,Q是多项式次数。

12.4 Structured Hypothesis Sets

  当模型复杂度(VC维)增加时,虽然能带来训练误差的减小,但过高的VC维可能会带来测试集误差的下滑。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值