当训练集很大时,计算输入实例和每个训练样本的距离既耗费资源又费时,为了提高 k k k 近邻搜索的效率,可以使用一些特殊的结构存储训练数据来减少计算距离的次数,如KD 树。
KD 树(K-Dimension Tree)是对数据点在 k k k 维空间中划分的一种数据结构,主要应用于多维空间关键数据的搜索(如范围搜索和最近邻搜索)。本质上说,KD树就是一种平衡二叉树。
范围查询 就是给定查询点和查询距离的阈值,从数据集中找出所有和查询点距离小于阈值的数。
K近邻查询 是给定查询点和正整数 K K K,从数据集中找到距离查询点最近的 K K K 个数据。
1 构造 KD 树
假设输入为 k k k 维空间的数据集 T = x 1 , x 2 , ⋯ , x N T=x_1,x_2,\cdots,x_N T=x1,x2,⋯,xN,其中 x i = ( x i ( 1 ) , x i ( 2 ) , ⋯ , x i ( k ) ) T x_i=(x_i^{(1)},x_i^{(2)},\cdots,x_i^{(k)})^T xi=(xi(