【sklearn第十二讲】最近邻

最新推荐文章于 2025-06-21 22:15:52 发布

原创

最新推荐文章于 2025-06-21 22:15:52 发布 · 4k 阅读

16 ·

CC 4.0 BY-SA版权

文章标签：

#python

本文介绍了机器学习中的最近邻算法，包括无监督近邻、KDTree与BallTree类，以及最近邻分类和回归。讲解了不同类型的近邻算法如Brute Force、KD Tree和Ball Tree，并探讨了算法选择的考虑因素，如样本数、维数和数据结构。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

机器学习训练营——机器学习爱好者的自由交流空间（入群联系qq：2279055353）

sklearn.neighbors提供了一组基于邻居的有监督和无监督学习方法。其中的无监督近邻是其它学习方法的基础，有监督近邻广泛应用于离散标签的分类和连续标签的回归。最近邻方法的基本原则是，找到事先定义样本数，距离新点最近的样本，从这些样本预测新点的标签。样本数可以是用户自定义的(k-nearest neighbor), 或者根据局部的点密度改变(radius-based neighbor). 通常，距离可以是任何测度，标准的欧氏距离是普遍的选择。尽管简单，最近邻已经被成功地应用到分类和回归问题，包括手写数字和卫星遥感图像识别。作为一种非参数方法，它经常能够成功地应用到决策边界不规则的分类里。

类sklearn.neighbors能接受Numpy数组或scipy.sparse矩阵作为输入。对于稠密矩阵，它支持很多距离测度；对于稀疏矩阵，它支持任何Minkowski距离。

无监督近邻

NearestNeighbors执行无监督的近邻学习。它作为三种不同的近邻算法：BallTree, KDTree, 和一个基于sklearn.metrics.pairwise的暴风算法的统一接口。近邻搜索算法的选择受关键词algorithm控制，该词可选值在[‘auto’, ‘ball_tree’, ‘kd_tree’, ‘brute’]里。当取默认值auto时，算法试图从训练数据里确定最好的方法。

找到最近邻

对于在两个数据集之间找到最近邻这样的简单任务，可以使用sklearn.neighbors里的无监督算法。

from sklearn.neighbors import NearestNeighbors
import numpy as np
X = np.array([[-1, -1], [-2, -1], [-3, -2], [1, 1], [2, 1], [3, 2]])
nbrs = NearestNeighbors(n_neighbors=2, algorithm='ball_tree').fit(X)
distances, indices = nbrs.kneighbors(X)
indices
distances

这里写图片描述

因为查询集匹配训练集，每一个点的最近邻就是该点自身，距离为0. 也可以产生一个稀疏图，表示邻近点的连接情况。

nbrs.kneighbors_graph(X).toarray()

这里写图片描述

在我们的数据集，下标顺序邻近的点，在参数空间里也是邻近的，这导致了k-近邻的块对角矩阵。

KDTree 与 BallTree 类

也可以使用KDTree, BallTree类直接找到最近邻。 Ball Tree and KD Tree有相同的接口，下面我们举一个KD Tree的例子。

from sklearn.neighbors import KDTree
import numpy as np
X = np.array([[-1, -1], [-2, -1], [-3, -2], [1, 1], [2, 1], [3, 2]])
kdt = KDTree(X, leaf_size=30, metric='euclidean')
kdt.query(X, k=2, return_distance=False)

这里写图片描述