SVM百家争鸣之针对大规模训练集的支持向量机的学习策略

论文的观点是从一个小规模的样本训练集训练得到一个初始的分类器,然后用这个分类器对大规模训练集进行修剪,修剪后得到一个很小的约减集,再用这个约减集进行训练得到最终的分类器。

文中有一个图很好的解释了他的算法:

其中H表示分类超平面,H+表示正样本的支持向量所处的超平面,H-表示负样本的支持向量所处的超平面。设样本中任意样本到H的距离为d,则,如图所示。算法分三步:

1:从所有样本中随机选取一小部分样本,在这小部分样本中训练得到一个初始的分类器

2:计算所有样本中的每个样本到刚才分类器的分类超平面的距离,如果满足,则保留此样本放进约减集,否则删除此样本。其中由自己控制,有两个功能:1)控制约减集的规模;2)影响最终分类器的分类精度

3:根据约减集的样本再此训练,得到最终的分类器,此约减集已经比初始样本大大减小了,但是保留了大部分的支持向量(因为我们知道,非支持向量对最终的分类超频面是没有影响的)

此文在他的数据集中表现的很好,当我认为也会有一些问题,因为一开始得到的初始分类器不一定接近真实的分类器,这样在删减样本的时候可能会删减最终的支持向量而得不到最优的训练样本。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值