《k - NN分类器的优化与性能分析》
1. 无关属性与缩放问题
在使用k - NN分类器时,我们不能仅仅停留在理解其原理并编写实现程序的层面,因为机械地应用可能会导致令人失望的结果。最近邻范式的核心原则是“如果描述对象的向量之间的几何距离小,则对象相似”,但在某些情况下,几何距离可能会产生误导,其中无关属性和属性缩放问题较为常见。
1.1 无关属性
并非所有属性都是平等的,在机器学习中,有些属性与给定示例的类别无关,但会影响向量之间的几何距离。例如,在一个训练集中,示例由体温(横轴)和鞋码(纵轴)两个数值属性描述。所有正例都在体温轴上的两个临界点划定的阴影区域内,而鞋码在整个范围内分布,与健康状况无关。然而,在计算几何距离时,鞋码属性会对结果产生影响,可能导致分类错误。
如果只使用第一个属性(体温),两个示例之间的欧几里得距离为 (d_E(x; y) = \sqrt{(x_1 - y_1)^2} = |x_1 - y_1|);如果使用两个属性,欧几里得距离为 (d_E(x; y) = \sqrt{(x_1 - y_1)^2 + (x_2 - y_2)^2})。如果第二个属性(鞋码)无关,那么 ((x_2 - y_2)^2) 这一项就是多余的,但它会对k - NN的相似度概念产生不利影响。
无关属性造成的损害程度取决于用于描述示例的无关属性数量。在有数百个属性的领域中,如果只有一个无关属性,通常不会对 (d_E(x; y)) 的值产生实质性影响;但随着无关属性比例的增加,几何距离将变得几乎毫无意义,分类器的性能也会变差。
1.2 属性值的缩放
属性值的缩放也会对k - NN分类器的行为产生重大
超级会员免费看
订阅专栏 解锁全文
1671

被折叠的 条评论
为什么被折叠?



