6、《k - NN分类器的优化与性能分析》

《k - NN分类器的优化与性能分析》

1. 无关属性与缩放问题

在使用k - NN分类器时,我们不能仅仅停留在理解其原理并编写实现程序的层面,因为机械地应用可能会导致令人失望的结果。最近邻范式的核心原则是“如果描述对象的向量之间的几何距离小,则对象相似”,但在某些情况下,几何距离可能会产生误导,其中无关属性和属性缩放问题较为常见。

1.1 无关属性

并非所有属性都是平等的,在机器学习中,有些属性与给定示例的类别无关,但会影响向量之间的几何距离。例如,在一个训练集中,示例由体温(横轴)和鞋码(纵轴)两个数值属性描述。所有正例都在体温轴上的两个临界点划定的阴影区域内,而鞋码在整个范围内分布,与健康状况无关。然而,在计算几何距离时,鞋码属性会对结果产生影响,可能导致分类错误。

如果只使用第一个属性(体温),两个示例之间的欧几里得距离为 (d_E(x; y) = \sqrt{(x_1 - y_1)^2} = |x_1 - y_1|);如果使用两个属性,欧几里得距离为 (d_E(x; y) = \sqrt{(x_1 - y_1)^2 + (x_2 - y_2)^2})。如果第二个属性(鞋码)无关,那么 ((x_2 - y_2)^2) 这一项就是多余的,但它会对k - NN的相似度概念产生不利影响。

无关属性造成的损害程度取决于用于描述示例的无关属性数量。在有数百个属性的领域中,如果只有一个无关属性,通常不会对 (d_E(x; y)) 的值产生实质性影响;但随着无关属性比例的增加,几何距离将变得几乎毫无意义,分类器的性能也会变差。

1.2 属性值的缩放

属性值的缩放也会对k - NN分类器的行为产生重大

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值