KNN-KD树

最新推荐文章于 2024-02-19 11:22:31 发布

weq27

最新推荐文章于 2024-02-19 11:22:31 发布

阅读量765

点赞数

CC 4.0 BY-SA版权

分类专栏：机器学习数据挖掘文章标签：机器学习数据挖掘数据结构学习笔记 python

本文链接：https://blog.youkuaiyun.com/weq27/article/details/69787670

KNN算法在大数据集时效率较低，KD树是一种用于快速查找最近邻的树形数据结构。本文介绍了KD树的基本概念，包括节点数据结构、构建过程，并提供了Python实现KD树的算法概述。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

KNN-KD树学习笔记

之前已经介绍过KNN的算法了，回顾一下KNN的算法核心思想：KNN算法是给定一个训练数据集，对新的输入实例，在训练数据集中找到与该实例最邻近的k个实例，这k个实例的多数属于某个类，就把该输入实例分类到这个类中。

实现kNN算法时，主要考虑的问题是如何对训练数据进行快速k近邻搜索，这点在特征空间的维数大以及训练数据容量大时尤其重要。简单的KNN算法需要遍历整个训练数据集来求解距离，这样的做法在训练数据集特别大的时候并不高效，需要很大的计算量。

KNN算法的改进方法之一是分组快速搜索近邻法。其基本思想是：将样本集按近邻关系分解成组，给出每组质心的位置，以质心作为代表点，和未知样本计算距离，选出距离最近的一个或若干个组，再在组的范围内应用一般的KNN算法。由于并不是将未知样本与所有样本计算距离，故该改进算法可以减少计算量，但并不能减少存储量。下面介绍一种名为KD树的数据结构，将其应用到KNN算法中来减小算法的计算量。

KD树结构

KD树(K-dimension tree)是一个二叉树结构，表示一个对k维空间中的实例点进行存储以便对其进行快速检索的树形数据结构。它的每一个节点记载了特征坐标，切分轴，指向左枝的指针，指向右枝的指针。

构造kd树相当于不断地用垂直于坐标轴的超平面将k维空间进行切分，构成一系列的k维超矩形区域。kd树的每一个节点对应于一个k维超矩形区域。KD树是一个二叉树，每个节点表示一个空间范围。

KD树节点的数据结构

# 构造KD树节点的数据结构
class KdNode(object):
    def __init__(self, dom_elt, label, split, left, right):
        self.dom_elt = dom_elt  # k维向量节点(k维空间中的一个样本点)
        self.label = label      # 上述样本点dom_elt的标记
        self.split = split      # 整数（进行分割维度的序号）
        self.left = left        # 该结点分割超平面左子空间构成的kd-tree
        self.right = right      # 该结点分割超平面右子空间构成的kd-tree