数据映射构建与降维技术中的加速及样本外扩展策略
1. 映射构建基础
在构建树结构后,新的点(或查询点)可通过依次测试每个决策规则被分配到叶节点。由于树的每一层(向叶子节点遍历)中,单元格的直径(即单元格中最远两点间的距离)会迅速减小,与查询点处于同一单元格的点很可能是其最近邻。满足单元格直径递减条件的平衡树,能以 $O(N log N)$ 的复杂度找到 $N$ 个点的最近邻。
1.1 不同类型的树结构
- k - d 树 :将欧几里得空间划分为超矩形单元格。每个决策规则沿一个变量定义的方向分割单元格,并在给定阈值处设置分割界限。该方向选择为使单元格内点分布最分散的方向,阈值可设为这些点对应变量的中位数以构建平衡树。此树在低维欧几里得空间中非常高效,但在高维空间或一般度量空间中不够稳健。
- 度量树(vantage - point 树) :专为任意维度的度量空间设计。对于度量树的节点,决策规则根据点到参考点的距离分割点,将空间划分为以该点为中心的球内和球外两部分。距离阈值(即球的半径)可设为单元格内点到参考点距离的中位数。好的度量树需要分布良好的参考点。
- 随机投影树 :实现了与 k - d 树相近的策略,但更适合从高维欧几里得空间中的低维流形采样的点。每个单元格沿与从单位超球随机采样的方向正交的超平面分割。决策规则基于点在该随机轴上的投影分割点。阈值通过取中位数并添加具有特定属性的随机噪声得到。在这些条件下,$\partial log \partial$ 层足以使单元格直径至少减半,其中 $\partial$ 是