KD树是k-dimension树的简称。KD树是一种树形的数据结构,目的是为了提高数据查找的效率。可以把KD树类比为一维的折半查找,只不过它是针对多维数据的。一维折半查找需要把数据先排序,做成查找表,或是做成二叉查找树,即每个节点左子树均小于节点值,而右子树均大于节点值。对多维的情况下,就需要构造KD树了。
KD树的构造
一维的二叉查找树很好构造,先对所有数据排序,然后每次取中值,把数据分成两半,左半为左子树,右半为右子树;然后递归下去就好了。这样可以保证构造出来的二叉树是平衡的。
KD树处理的数据是多维的,因此每次划分需要选定某一维作为参考来划分数据。选定后所有数据按这一维排序,然后划分成左子树,右子树。参考维度的选定可以依次选,比如这一层以X维划分,下一层就以Y维,如此循环反复。更好的方法是每次选择方差最大的那一维。只要划分以后左右区域都还有数据,划分就进行下去,直到按某个节点划分完以后两边没有数据点为止。下图是二维和三维KD树构造的例子。
注意KD树的节点必须包含以该点划分时的参考维度,查找时才知道应该以哪一维数据为参考进行左右分支的选择。
KD树的数据查找
KD树的构造只是手段,用它来提高数据查找效率才是目的。KD树的查找过程包括二叉树搜索和回溯两个过程。单讲算法比较抽象,举个常见的例子就容易理解了。
比如上图有个KD树,然后我要查离(2.1,3.1)最近的点。
先进行二叉树搜索,注意要一直搜索到叶子节点,在(7,2)节点按X维,应该往左,在(5,4)节点按Y维,应该往下,最后找到叶子节点(2,3),此时当前最近的节点是(2,3);
开始回溯,回溯的目的是看看当前叶子节点父节点的另外一侧有没有更近的点,回溯到(5,4)节点,然后以当前节点(2,3)为圆心,以(2.1,3.1)到(2,3)的距离为半径画一个圆,发现它不与Y=4节点相交(为啥是Y=4直线呢,因为在(5,4)点处是按Y维来划分的啊),证明另一侧不可