11 Linear Models for Classification
11.1 Linear Models for Binary Classification
本节探讨了线性回归与对数回归解决分类问题的可能性。证明的方法是将PLA、线性回归与对数回归的损失函数作一些变化,使之能表现为yx为自变量的损失函数二维图像。其中,PLA的损失函数图像为yx小于0时值为1,大于0时值为0的折线;线性回归的平方差损失函数为过(1,0)、(0,1)的二次函数;对数回归的损失函数为过点(0,ln2)的对数函数。在这里将对数回归的损失函数中的对数函数的底由e换为
可以发现,线性回归与对数回归的损失函数都大于0/1损失函数,可以看做是PLA损失函数的上界。故而根据VC维理论,当压低两者的Ein时也会造成0/1损失函数的Eout下降,因此它们可以用于分类问题。
但很明显的是,线性回归的损失函数在yx大于1后依旧上升,并且在小于1之后也远大于对数回归的损失函数,可以看出线性回归对于压低Eout的效果不如对数回归。
11.2 Stochastic Gradient Descent
随机梯度下降法,与bat梯度下降法不同的是,随机梯度下降法从数据集中随机选取一个样本,并计算该样本的偏差作为梯度。从公式上看的话,就相当于把1m的系数以及连加的符号去掉。该方法的好处是节省计算资源,坏处是会在最优点附近震荡。
另外还有一种mini-bat的梯度下降法,它是针对对有限的多个数据进行梯度下降,该算法比SGD和bat梯度下降法快。
11.3 Multicalss via Logistic Regression
将其中一个类别的样本设为正例,其他为负例,并进行训练,这样如果有K个类别,就训练
11.4 Multiclass via Binary Classification
抽取两两类别的样本并用线性分类器做分类,之后每一个待预测样本都用所有的分类器做预测,并取预测结果最多的那个类别作为样本的类别。这样做的好处在于精度较高,并能适用于所有二分分类器。缺点在于其复杂度是与类别数量的平方相关,所以当类别数量的多时复杂度高。
12 Nonlinear Transformation
12.1 Quadratic Hypothesis
本节介绍了在线性分类器的基础上构造非线性分类器。方法是将原特征的高次作为新的特征加入特征空间,例如原特征有x1与x2两个特征,则可以新加入x21、x22以及x1x2作为新特征。以二维平面为例,其原理是在平面上构造一个多项式图形,图形的一边是正例,另一边是负例。
12.2 NonLinear Transform
以上该方法的本质是构造新的特征空间,以求通过这个特征空间能得到更好的分类效果。
12.3 Price of Nonlinear Transform
显然,在进行特征空间转换的时候,多项式的转换方式会带来O(Qd)的代价,包括时间以及空间的代价,其中,d是原有的特征维数,
12.4 Structured Hypothesis Sets
当模型复杂度(VC维)增加时,虽然能带来训练误差的减小,但过高的VC维可能会带来测试集误差的下滑。