随机森林原理介绍

最新推荐文章于 2025-05-15 10:54:28 发布

转载最新推荐文章于 2025-05-15 10:54:28 发布 · 915 阅读

·

0

·

文章标签：

#机器学习/k近邻算法/kd树

机器学习专栏收录该内容

20 篇文章

订阅专栏

二、构建完kd树之后，如今进行最近邻搜索呢？

KD树的查找算法：

在k-d树中进行数据的查找也是特征匹配的重要环节，其目的是检索在k-d树中与查询点距离最近的数据点。

这里先以一个简单的实例来描述最邻近查找的基本思路。

例一：查询的点（2.1,3.1）（较简单）。

1、如图3所示，星号表示要查询的点（2.1,3.1）。通过二叉搜索，顺着搜索路径很快就能找到最邻近的近似点，也就是叶子节点（2,3）。

2、而找到的叶子节点并不一定就是最邻近的，最邻近肯定距离查询点更近，应该位于以查询点为圆心且通过叶子节点的圆域内。

3、为了找到真正的最近邻，还需要进行’回溯’操作：

算法沿搜索路径反向查找是否有距离查询点更近的数据点。

此例中先从（7,2）点开始进行二叉查找，然后到达（5,4），最后到达（2,3），此时搜索路径中的节点为<（7,2），（5,4），（2,3）>，

首先以（2,3）作为当前最近邻点，计算其到查询点（2.1,3.1）的距离为0.1414，

然后回溯到其父节点（5,4），并判断在该父节点的其他子节点空间中是否有距离查询点更近的数据点。以（2.1,3.1）为圆心，以0.1414为半径画圆，如图3所示。发现该圆并不和超平面y = 4交割，因此不用进入（5,4）节点右子空间中去搜索。

4、最后，再回溯到（7,2），以（2.1,3.1）为圆心，以0.1414为半径的圆更不会与x = 7超平面交割，因此不用进入（7,2）右子空间进行查找。至此，搜索路径中的节点已经全部回溯完，结束整个搜索，返回最近邻点（2,3），最近距离为0.1414。

图3

例二：查找点为（2，4.5）（叫复杂一点）。

一个复杂点了例子如查找点为（2，4.5）。

1、同样先进行二叉查找，先从（7,2）查找到（5,4）节点，在进行查找时是由y = 4为分割超平面的，由于查找点为y值为4.5，因此进入右子空间查找到（4,7），形成搜索路径<（7,2），（5,4），（4,7）>，

2、取（4,7）为当前最近邻点，计算其与目标查找点的距离为3.202。然后回溯到（5,4），计算其与查找点之间的距离为3.041。

（（4,7）与目标查找点的距离为3.202，而（5,4）与查找点之间的距离为3.041，所以（5,4）为查询点的最近点；）

3、以（2，4.5）为圆心，以3.041为半径作圆，如图4所示。可见该圆和y = 4超平面交割，所以需要进入（5,4）左子空间进行查找。此时需将（2,3）节点加入搜索路径中得<（7,2），（2,3）>。

4、回溯至（2,3）叶子节点，（2,3）距离（2,4.5）比（5,4）要近，所以最近邻点更新为（2，3），最近距离更新为1.5。

5、回溯至（7,2），以（2,4.5）为圆心1.5为半径作圆，并不和x = 7分割超平面交割，如图5所示。

至此，搜索路径回溯完。返回最近邻点（2,3），最近距离1.5。

图4 图5

上述的kd树是完成最近邻的搜索，其实也可以找到最近的k个点。

k-d树查询算法的简要说明：

从root节点开始，DFS搜索直到叶子节点，同时在stack中顺序存储已经访问的节点。

如果搜索到叶子节点，当前的叶子节点被设为最近邻节点。

然后通过stack回溯:

如果当前点的距离比最近邻点距离近，更新最近邻节点.

然后检查以最近距离为半径的圆是否和父节点的超平面相交.

如果相交，则必须到父节点的另外一侧，用同样的DFS搜索法，开始检查最近邻节点。

如果不相交，则继续往上回溯，而父节点的另一侧子节点都被淘汰，不再考虑的范围中.

当搜索回到root节点时，搜索完成，得到最近邻节点。

            </div>
                </div>

EricMachineLearning

博客等级

码龄13年

0
原创

66
点赞

265
收藏

77
粉丝

关注

私信

热门文章

分类专栏

机器学习 20篇
C++ 5篇
LeetCode 3篇
TensorFlow
Python 2篇
信贷风控 2篇
数据库 3篇
人脸检测 4篇
NLP 3篇
kaggle 1篇
caffe
Linux 2篇
推荐算法 1篇
HBase 2篇
Kafka 1篇

展开全部收起

上一篇：: IV值和WOE值的理解

下一篇：: Reverse Integer

最新评论

推荐系统中的召回率与准确率
优快云-Ada助手: 非常感谢优快云博主的分享，推荐系统中的召回率与准确率是一个非常有趣的话题。我觉得下一篇博客可以写关于推荐系统中常用的算法以及它们的优缺点，例如协同过滤、基于内容的推荐、深度学习等等。这样的技术文章对其他用户也会非常有帮助，期待更多的精彩分享！为了方便博主创作，提高生产力，优快云上线了AI写作助手功能，就在创作编辑器右侧哦～（https://mp.youkuaiyun.com/edit?utm_source=blog_comment_recall ）诚邀您来加入测评，到此（https://activity.youkuaiyun.com/creatActivity?id=10450&utm_source=blog_comment_recall）发布测评文章即可获得「话题勋章」，同时还有机会拿定制奖牌。
Random Forest算法参数解释及调优
傻鱼Molly: 是不是叶片越小，模型效果越好呀
IV值和WOE值的理解
life_forwin: 3q
LSTM的推导与实现
胖了5斤的瘦子: 你好，前向过程里面ht不应该等于tanh(ct)*ot 吗？为什么您直接写self.state.h = self.state.s * self.state.o
多层注意力模型：Hierarchical Attention Networks for Document Classification
ASHIN2: 您好，运行代码提示 [WinError 3] 系统找不到指定的路径。: 'aclImdb/train\\pos'，是要下载Git,运行aclImdb文件夹下那个.sh文件吗？

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。