9、支持向量机在新闻主题分类中的应用

支持向量机在新闻主题分类中的应用

1. 处理离群点

在实际的数据集中,常常会存在离群点,这些离群点可能会导致数据无法进行线性分离。为了解决这个问题,我们允许对这些离群点进行错误分类,并尝试将引入的误差最小化。样本的错误分类误差(也称为合页损失)可以表示为特定形式。同时,我们要最小化某个最终项,对于包含 $m$ 个样本的训练集,参数 $C$ 控制着两个项之间的权衡。

当选择较大的 $C$ 值时,错误分类的惩罚相对较高,这使得数据分离的规则更加严格,模型容易出现过拟合。具有大 $C$ 值的 SVM 模型偏差较低,但可能会有较高的方差。相反,当 $C$ 值足够小时,错误分类的影响相对较低,允许更多的数据点被错误分类,从而使分离不那么严格。具有小 $C$ 值的 SVM 模型方差较低,但可能会有较高的偏差。参数 $C$ 决定了偏差和方差之间的平衡,可以通过交叉验证进行微调。

2. SVM 的实现

2.1 二分类示例

我们以新闻主题分类为例,首先进行二分类的实验,选择 comp.graphics sci.space 两个主题。具体步骤如下:
1. 加载数据

categories = ['comp.graphics', 'sci.space']
data_train = fetch_20newsgroups(subset='train',
                                categories=categories, ra
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值