7、机器学习中的分类器优化与线性分类器解析

机器学习中的分类器优化与线性分类器解析

1. 去除冗余示例

在机器学习的训练集中,有些示例虽不会对分类性能产生负面影响,但会增加计算成本,因此去除冗余示例是很有必要的。

1.1 Tomek链接的去除

Tomek链接是指训练集中,两个属于不同类别的示例互为最近邻。去除Tomek链接通常能提高数据的整体质量,甚至可能使1 - NN分类器达到使用整个原始训练集的k - NN分类器的性能。不过,Tomek链接技术也有局限性,它不能识别所有误导性示例,而且有些被移除的示例可能是“无辜”的,本应保留。在两种特定情况下需要谨慎使用该技术:一是训练集非常小的时候;二是其中一个类别显著多于另一个类别的时候。

操作 说明
识别Tomek链接 在训练集中,找出互为最近邻且属于不同类别的示例对
去除Tomek链接 移除这些示例对中的部分示例
1.2 冗余示例的去除

在某些训练集中,存在大量冗余示例,删除这些示例不会改变k - NN分类器的行为。例如,在一个有10⁶个训练示例且每个示例由10⁴个属性描述的领域中,使用欧几里得距离寻找最近邻需要进行10¹⁰次算术运算。如果要同时对数千个对象进行分类,运算次数将达到10¹³次,这是非常庞大的计算量。

为了减少冗余,我们希望用训练集

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值