机器学习与数据挖掘之k近邻法

Cloud陈

于 2017-03-28 10:44:27 发布

阅读量951

点赞数

分类专栏：机器学习/数据挖掘文章标签：机器学习数据挖掘 k近邻法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/shengyingpo/article/details/67632404

版权

机器学习/数据挖掘专栏收录该内容

9 篇文章

订阅专栏

本文介绍了k近邻算法的基本原理，包括模型构建、距离度量、k值选择、分类决策规则等内容，并探讨了kd树这一高效实现方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

参考文献：机器学习与数据挖掘参考文献

k近邻法是一种基本分类与回归方法。k近邻算法简单、直观：给定一个训练数据集，对新的输入实例，在训练数据集中找到与该实例最近邻的k个实例，这k个实例的多数属于某个类，就把该输入实例分为这个类。k近邻法的特殊情况是k=1的情形，称为最近邻算法。对于输入的实例点（特征向量）x，最近邻法将训练数据集中与x最邻近点的类作为x的类。

k近邻法没有显式的学习过程。

k近邻法使用的模型实际上对应于特征空间的划分。模型由三个基本要素——距离度量、k值的选择和分类决策规则决定。

一、模型

k近邻法中，当训练集、距离度量（如欧氏距离）、k值及分类决策规则（如多数表决）确定后，对于任何一个新的输入实例，它所属的类唯一地确定。这相当于根据上述要素将特征空间划分为一些子空间，确定子空间里的每个点所属的类。

二、距离度量

特征空间中两个实例点的距离是两个实例点相似程度的反映。k近邻模型的特征空间一般是n维实数向量空间Rⁿ。

设特征空间X是n维实数向量空间Rⁿ，x_i，xj∈X，x_i=(x_i⁽¹⁾,x_i⁽²⁾,...,x_i⁽ⁿ⁾)^T，x_j=(x_j⁽¹⁾,x_j⁽²⁾,...,x_j⁽ⁿ⁾)^T，x_i，xj的Lp距离定义为

这里p≥1.当p=2时，称为欧氏距离，即

当p=1时，称为曼哈顿距离，即

当p=∞时，它是各个坐标距离的最大值，即

三、k值的选择

k值的选择会对k近邻法的结果产生重大影响。

k值小时，k近邻模型更复杂，近似误差小，估计误差大；k值大时，k近邻模型更简单，估计误差小，近似误差大。k值的选择反映了对近似误差与估计误差之间的权衡，通常由交叉验证选择最优的k。

四、分类决策规则

k近邻法中的分类决策规则往往是多数表决，即由输入实例的k个邻近的训练实例中的多数类决定输入实例的类。

五、k近邻法的实现：kd树

k近邻法最简单的实现是线性扫描。这时要计算输入实例与每一个训练实例的距离。当训练集很大时，计算非常耗时，这种方法是不可行的。

为了提高k近邻搜索的效率，可以考虑使用特殊的结构存储训练数据，以减少计算距离的次数。

kd树是一种便于对k维空间中的数据进行快速检索的数据结构。kd树是二叉树，表示对k维空间的一个划分，其每个结点对应于k维空间划分中的一个超矩形区域。利用kd树可以省去对大部分数据点的搜索，从而减少搜索的计算量。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。