支持向量机在新闻主题分类中的应用
1. 处理离群点
在实际的数据集中,常常会存在离群点,这些离群点可能会导致数据无法进行线性分离。为了解决这个问题,我们允许对这些离群点进行错误分类,并尝试将引入的误差最小化。样本的错误分类误差(也称为合页损失)可以表示为特定形式。同时,我们要最小化某个最终项,对于包含 $m$ 个样本的训练集,参数 $C$ 控制着两个项之间的权衡。
当选择较大的 $C$ 值时,错误分类的惩罚相对较高,这使得数据分离的规则更加严格,模型容易出现过拟合。具有大 $C$ 值的 SVM 模型偏差较低,但可能会有较高的方差。相反,当 $C$ 值足够小时,错误分类的影响相对较低,允许更多的数据点被错误分类,从而使分离不那么严格。具有小 $C$ 值的 SVM 模型方差较低,但可能会有较高的偏差。参数 $C$ 决定了偏差和方差之间的平衡,可以通过交叉验证进行微调。
2. SVM 的实现
2.1 二分类示例
我们以新闻主题分类为例,首先进行二分类的实验,选择 comp.graphics 和 sci.space 两个主题。具体步骤如下:
1. 加载数据 :
categories = ['comp.graphics', 'sci.space']
data_train = fetch_20newsgroups(subset='train',
categories=categories, ra
超级会员免费看
订阅专栏 解锁全文
1033

被折叠的 条评论
为什么被折叠?



