knn中kd树与球树的实现原理

最新推荐文章于 2023-06-08 20:43:00 发布

原创最新推荐文章于 2023-06-08 20:43:00 发布 · 2.7k 阅读

6 ·

CC 4.0 BY-SA版权

机器学习专栏收录该内容

12 篇文章

订阅专栏

本文探讨了KNN算法在大规模数据集上的性能瓶颈，并介绍了KD树和球树两种优化方法，通过构建高效的搜索结构来加速最近邻查找，同时提出了半径最近邻和质心最近邻等KNN算法的扩展应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

knn算法的思考
我们在使用knn算法时是否会发觉，随着数据量的增加，预测过程会越来越缓慢。在K值的选择过程中是否会消耗过多性能，然而我们当前使用的就是蛮力模式。通过找到最近邻的k个点，通过距离公式来计算最近邻的k个点。我们是否可以解决这种预测时间过长的问题，那我们可以考虑使用sklearn中的两种内置方法 kd-树和球树去解决这个问题。
kd-树
kd-树方法需要两个重要步骤
1.构建kd-树
2.搜索树
假设我们一个数据集的维度为k，特征数为n，通过提取特征数据算出各特征的方差，选择出最大方差的ki维，在选取ki维特征nk求出中位数作为阈值，通过阈值进行分割，构建左子树和右子树并分别展开左右子树。
在这里插入图片描述
比如我们有二维样本6个，{(2,3)，(5,4)，(9,6)，(4,7)，(8,1)，(7,2)}，构建kd树的具体步骤为：

1）找到划分的特征。6个数据点在x，y维度上的数据方差分别为6.97，5.37，所以在x轴上方差更大，用第1维特征建树。

2）确定划分点（7,2）。根据x维上的值将数据排序，6个数据的中值(所谓中值，即中间大小的值)为7，所以划分点的数据是（7,2）。这样，该节点的分割超平面就是通过（7,2）并垂直于：划分点维度的直线x=7；

3）确定左子空间和右子空间。分割超平面x=7将整个空间分为两部分：x<=7的部分为左子空间，包含3个节点={(2,3),(5,4),(4,7)}；另一部分为右子空间，包含2个节点={(9,6)，(8,1)}。

4）用同样的办法划分左子树的节点{(2,3),(5,4),(4,7)}和右子树的节点{(9,6)，(8,1)}。最终得到KD树。
　　　　在这里插入图片描述
　　　　kd-树搜索最近邻
当我们生成KD树以后，就可以去预测测试集里面的样本目标点了。对于一个目标点，我们首先在KD树里面找到包含目标点的叶子节点。以目标点为圆心，以目标点到叶子节点样本实例的距离为半径，得到一个超球体，最近邻的点一定在这个超球体内部。然后返回叶子节点的父节点，检查另一个子节点包含的超矩形体是否和超球体相交，如果相交就到这个子节点寻找是否有更加近的近邻,有的话就更新最近邻。如果不相交那就简单了，我们直接返回父节点的父节点，在另一个子树继续搜索最近邻。当回溯到根节点时，算法结束，此时保存的最近邻节点就是最终的最近邻。
kd树预测
有了KD树搜索最近邻的办法，KD树的预测就很简单了，在KD树搜索最近邻的基础上，我们选择到了第一个最近邻样本，就把它置为已选。在第二轮中，我们忽略置为已选的样本，重新选择最近邻，这样跑k次，就得到了目标的K个最近邻，然后根据多数表决法，如果是KNN分类，预测为K个最近邻里面有最多类别数的类别。如果是KNN回归，用K个最近邻样本输出的平均值作为回归预测值。

从上面的描述可以看出，KD树划分后可以大大减少无效的最近邻搜索，很多样本点由于所在的超矩形体和超球体不相交，根本不需要计算距离。大大节省了计算时间。

球树
但是我们会发现，因为使用kd树最近邻预测时，矩形与超球面易于相交，时常会因为菱角相交导致一些，无关多余的搜索，球树就是在kd树这个缺点上进行改进而生，通过将特征点转化为球状分割，从而减少无效相交。

先构建一个超球体，这个超球体是可以包含所有样本的最小球体。
从球中选择一个离球的中心最远的点，然后选择第二个点离第一个点最远，将球中所有的点分配到离这两个聚类中心最近的一个上，然后计算每个聚类的中心，以及聚类能够包含它所有数据点所需的最小半径。这样我们得到了两个子超球体，和KD树里面的左右子树对应。

3)对于这两个子超球体，递归执行步骤最终得到了一个球树

knn中的扩展
半径最近邻，通过找到指定半径内最近的k个值，这种算法思想找到指定范围内的最近邻的k个值，来进行预测
质心最近邻，通过在特征值中的平均值来获得质心点，最终该类别所有维度的n个平均值形成所谓的质心点。对于样本中的所有出现的类别，每个类别会最终得到一个质心点。当我们做预测时，仅仅需要比较预测样本和这些质心的距离，最小的距离对于的质心类别即为预测的类别。这个算法通常用在文本分类处理上。

KNN的主要优点有：

1）理论成熟，思想简单，既可以用来做分类也可以用来做回归

2）可用于非线性分类

3）训练时间复杂度比支持向量机之类的算法低，仅为O(n)

4）和朴素贝叶斯之类的算法比，对数据没有假设，准确度高，对异常点不敏感

5）由于KNN方法主要靠周围有限的邻近的样本，而不是靠判别类域的方法来确定所属类别的，因此对于类域的交叉或重叠较多的待分样本集来说，KNN方法较其他方法更为适合
　　　　6）该算法比较适用于样本容量比较大的类域的自动分类，而那些样本容量较小的类域采用这种算法比较容易产生误分

KNN的主要缺点有：

1）计算量大，尤其是特征数非常多的时候

2）样本不平衡的时候，对稀有类别的预测准确率低

3）KD树，球树之类的模型建立需要大量的内存

4）使用懒散学习方法，基本上不学习，导致预测时速度比起逻辑回归之类的算法慢

5）相比决策树模型，KNN模型可解释性不强