7、机器学习中的分类器优化与线性分类器原理

机器学习中的分类器优化与线性分类器原理

在机器学习领域,分类是一项核心任务,涉及将对象分配到不同的类别中。为了实现高效准确的分类,我们需要对训练数据进行处理,并选择合适的分类器。本文将探讨去除冗余示例以及线性和多项式分类器的相关内容。

去除冗余示例

在机器学习中,训练集里的一些示例虽然不会对分类性能产生负面影响,但却会增加计算成本,因此需要将其去除。

Tomek Links

Tomek Links 是指在训练集中,两个不同类别的示例互为最近邻的情况。通过去除 Tomek Links,可以减少训练集中的有害示例,提高数据的整体质量。去除 Tomek Links 后,1 - NN 分类器甚至有可能达到使用整个原始训练集的 k - NN 分类器的性能。

不过,Tomek Links 技术也存在一定的局限性。它无法识别所有具有误导性的示例,而且有些被去除的示例可能是“无辜的”,本应被保留。在两种特定情况下,工程师需要格外小心:一是训练集非常小的时候;二是其中一个类别明显多于另一个类别的时候。

以下是关于 Tomek Links 的一些常见问题及解答:
- 为何要“清理”训练集 :去除有害和冗余的示例,有害示例会增加错误率,冗余示例会增加计算成本,清理后可提高分类效率和性能。
- 什么是 Tomek Links 以及如何在训练集中识别它们 :Tomek Links 是两个不同类别的示例互为最近邻的情况。识别时,需计算每个示例与其他示例的距离,找出满足条件的对。有时需要重复该过程,以确保尽可能多地去除有害示例。
-

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值