机器学习中的分类器优化与线性分类器原理
在机器学习领域,分类是一项核心任务,涉及将对象分配到不同的类别中。为了实现高效准确的分类,我们需要对训练数据进行处理,并选择合适的分类器。本文将探讨去除冗余示例以及线性和多项式分类器的相关内容。
去除冗余示例
在机器学习中,训练集里的一些示例虽然不会对分类性能产生负面影响,但却会增加计算成本,因此需要将其去除。
Tomek Links
Tomek Links 是指在训练集中,两个不同类别的示例互为最近邻的情况。通过去除 Tomek Links,可以减少训练集中的有害示例,提高数据的整体质量。去除 Tomek Links 后,1 - NN 分类器甚至有可能达到使用整个原始训练集的 k - NN 分类器的性能。
不过,Tomek Links 技术也存在一定的局限性。它无法识别所有具有误导性的示例,而且有些被去除的示例可能是“无辜的”,本应被保留。在两种特定情况下,工程师需要格外小心:一是训练集非常小的时候;二是其中一个类别明显多于另一个类别的时候。
以下是关于 Tomek Links 的一些常见问题及解答:
- 为何要“清理”训练集 :去除有害和冗余的示例,有害示例会增加错误率,冗余示例会增加计算成本,清理后可提高分类效率和性能。
- 什么是 Tomek Links 以及如何在训练集中识别它们 :Tomek Links 是两个不同类别的示例互为最近邻的情况。识别时,需计算每个示例与其他示例的距离,找出满足条件的对。有时需要重复该过程,以确保尽可能多地去除有害示例。
-
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



