k近邻算法与kd树的创建和搜索

原创

已于 2023-03-12 17:17:42 修改 · 1.7w 阅读

CC 4.0 BY-SA版权

文章标签：

于 2017-07-19 17:27:25 首次发布

本文介绍了k近邻算法及其在大数据量时的计算挑战，提出了kd树作为优化搜索的方法。kd树通过递归划分数据空间以加速查找最近邻的过程。在构建kd树时，选择具有最大方差的维度进行切分，而在查找过程中，通过判断超球体与超矩形是否相交来确定是否需要进一步搜索。通过一个实例展示了kd树的查找过程。

$\frac{hit2015spring}{晨凫追风}$

欢迎关注我的博客：http://blog.youkuaiyun.com/hit2015spring

是一种常用的监督学习的方法：给定测试样本，基于某种距离度量找出训练集中与其最靠近的k个训练样本，然后基于k个邻居的信息来进行预测。通常：

分类任务中用投票，选择k个样本中出现最多的类别标记作为预测结果
回归任务中：平均法
还可以基于距离的远近进行加权平均或者加权投票，距离越近权重越大

没有显示的训练过程，训练时间开销为0，是一种懒惰学习

分类的结果与k的选择和距离计算方式的选择有关系

k近邻分类器示意图

上图可以看出二维空间中，距离的计算方式不同，包含的区域也是不相同的。故会影响结果

k值得选择也会对结果产生影响，k值小的话，相当于用较小的邻域中的训练实例进行预测，学习的近似误差会减小，只有与输入实例较近的训练实例才会对预测结果起作用，但是估计误差会增大，意味着会产生过拟合。

实现k近邻方法时，面临一个计算速度的挑战问题，当特征空间的维数非常大以及训练数据非常大的时候，我们优化这个搜索的方法就显得尤为重要了

一般方法：最简单的是实现一个线性扫描，就是计算输入的实例与每一个训练实例之间的距离，训练集很大的时候，计算会耗时很长，于是就出现了kd树的这种方法。

构造kd树的数学描述比较难懂：

输入的是 $k$ 维空间数据集 $T=\{x_1,x_2,\cdots,x_N\}$