映射构建与样本外扩展技术解析
1. 映射构建基础
在映射构建过程中,树结构起到了关键作用。当树构建完成后,任何新的点(或查询)都可以通过依次测试每个决策规则,被分配到一个叶节点。由于树的每一层(向叶节点遍历)中,单元格的直径(即单元格中最远两点之间的距离)会迅速减小,与查询点处于同一单元格的点很可能是其最近邻。因此,满足单元格直径减小条件的平衡树能够以 $O(N log N)$ 的复杂度找到 $N$ 个点的最近邻。
常见的树结构有以下几种:
- k - d 树 :将欧几里得空间划分为超矩形单元格。每个决策规则沿着由一个变量定义的方向分割单元格,并将分割界限设置在给定的阈值处。该方向选择为使单元格中的点分布最分散的方向,阈值可以设置为这些点对应变量的中位数,以获得平衡树。这种树在低维欧几里得空间中非常高效,但在高维空间或一般度量空间中不够稳健。
- 度量树(也称为有利点树) :专为任何维度的度量空间设计。对于度量树的每个节点,决策规则根据点到有利点的距离来分割点,将空间划分为以该点为中心的球内和球外两部分。距离阈值(即球的半径)可以取单元格中的点到有利点距离的中位数。一个好的度量树需要有利点分布均匀。
- 随机投影树 :实现了一种与 k - d 树类似的策略,但更适合从高维环境欧几里得空间中的低维流形采样的点。每个单元格沿着与从单位超球面上随机采样的方向正交的超平面进行分割。因此,决策规则根据点在该随机轴上的投影来划分点。阈值通过取中位数并添加具有特定属性的随机噪声得到。在这些条件下,可以证明 $\partial log \partial$ 层足以使单元格的直