12、支持向量机(SVM)在新闻组主题分类中的应用与优化

支持向量机(SVM)在新闻组主题分类中的应用与优化

1. 处理异常值

当一组包含异常值的观测数据无法进行线性分离时,我们可以允许对这些异常值进行错误分类,并尽量减少引入的误差。样本的误分类误差(也称为铰链损失)可以表示为特定形式。同时,为了减少最终目标值,我们会考虑一个终极项 ǁwǁ。对于包含 m 个样本的训练集,超参数 C 控制着两项之间的权衡:
- C 值较大 :误分类的惩罚相对较高,数据分离的规则变得更严格,模型可能容易过拟合,因为训练期间允许的错误较少。具有大 C 值的 SVM 模型偏差较低,但可能会有较高的方差。
- C 值较小 :误分类的影响相对较低,模型允许比大 C 值模型更多的误分类数据点,数据分离变得不那么严格。这样的模型方差较低,但可能会有较高的偏差。

参数 C 决定了偏差和方差之间的平衡,可以通过交叉验证进行微调。

2. 实现 SVM 进行二元新闻组主题分类

下面是使用 SVM 对计算机图形和科学空间两个新闻组主题进行二元分类的具体步骤:
1. 加载数据

from sklearn.datasets import fetch_20newsgroups
categories = ['comp.graphics', 'sci.space']
data_train = fetch_20newsgroups(subset='train', categories=categories, random_state=42)
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值