KNN中的kd树笔记

首先,讲一下kd树的概念,实现k近邻法时,主要考虑的问题是如何对训练数据进行快速k近邻搜索。这在特征空间的维数大及训练数据容量大时尤其必要。k近邻法最简单的实现是线性扫描(穷举搜索),即要计算输入实例与每一个训练实例的距离。计算并存储好以后,再查找K近邻。当训练集很大时,计算非常耗时。为了提高kNN搜索的效率,可以考虑使用特殊的结构存储训练数据,以减小计算距离的次数。

看来统计学习中的kd树的讲解,感觉讲的有点啰嗦,我个人对kd树的理解是这样的。

首先,你对你的数据集中的第一个属性进行一次划分,可以根据他的中位数进行一个划分,然后第一个属性划分完之后你可以再根据第二个属性进行划分,同样的你可以根据他的中位数进行划分,然后继续对剩下的属性进行一个划分,划分完之后就形成了一个如下图的kd树。假设数据集是

T={(2,3),(5,4),(9,6),(4,7),(8,1),(7,2)}T={(2,3),(5,4),(9,6),(4,7),(8,1),(7,2)},构造一个平衡kd树:

但是,就算形成了一个平衡树,也可能这颗树的搜索效率不是一个最好的。

### KNN算法与KD的关系 KNN(K-Nearest Neighbors)是一种基于实例的学习方法,主要用于分类和回归任务。它的核心思想是通过计算测试样本与训练集中所有样本之间的距离来找到离测试样本最近的 $ k $ 个邻居,并根据这些邻居的信息来进行预测[^4]。 然而,在实际应用中,当训练数据规模较大或者特征空间维度较高时,逐一遍历整个训练集以寻找最近邻会变得极其耗时。因此,引入了更高效的搜索策略,比如 KD (K-Dimensional Tree),这是一种专门设计用于加速多维空间中最近邻搜索的数据结构[^1]。 #### 联系 1. **共同目标**: KNNKD 都致力于解决相似性度量问题——即如何高效地找出某个点周围的临近点集合。 2. **优化作用**: 使用 KD 能够显著提升 KNN 的性能表现,尤其是在处理大规模低到中等维度的数据集时效果尤为明显[^3]。 3. **构建流程协同工作**: 在采用 KD 辅助下的 KNN 实现过程中,首先需要依据给定条件建立一棵平衡良好的 kd-tree ,然后在此基础上执行快速查找操作完成最终决策过程[^2]。 --- ### 区别分析 | 方面 | KNN | KD | |--------------|------------------------------|----------------------------| | 定义 | 是一种监督学习算法 | 数据索引/存储结构 | | 主要功能 | 进行分类或回归 | 加速最近邻查询 | | 时间复杂度 | O(n * d), n为样本数量, d为维度大小 | 平均情况下O(logn) ,最坏情况仍接近线性时间 | | 应用场景限制 | 高维数据可能引发“维度灾难” | 对于非常高维的情况效率下降较快 | 尽管两者紧密相连,但它们各自扮演着不同的角色:前者定义了解决方案框架而后者则提供了技术支持手段之一[^4]。 --- ### KD KNN 中的应用 在实践中运用 KD 改进传统暴力枚举方式实现 KNN 方法的具体步骤如下: 1. 构造 KD 阶段: - 利用全部已知标记好的样本作为节点元素递归分裂形成层次分明的二叉状拓扑关系; - 每次选取当前剩余未分配部分最大方差所在方向上的中间值作切割标准直至叶子层结束为止[^2]。 2. 查询阶段: 当接收到新的待测对象请求后,则按照预先设定规则沿路径向下追踪直到抵达某片特定区域停止并记录下沿途经过的关键位置信息;随后回溯检验是否存在潜在更优解候选者从而确保整体准确性达到预期水平[^3]。 以下是 Python 中简单演示如何结合 scikit-learn 创建带 KDTree 支持版本 knn 分类器代码片段: ```python from sklearn.neighbors import KDTree import numpy as np # 假设我们有一些二维平面上随机分布的点组成的数据集X及其标签y np.random.seed(0) X = np.random.rand(100, 2)*10 y = np.random.randint(0, 2, size=(100)) tree = KDTree(X) query_point = [[5, 5]] # 测试点 distances, indices = tree.query(query_point, k=5) print("Closest points:", X[indices]) ``` 此段脚本展示了怎样借助内置库函数轻松搭建起基础架构同时兼顾良好扩展性和可维护性的优势特点. ---
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

yann.bai

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值