19、数据映射构建与降维技术中的加速及样本外扩展策略

数据映射构建与降维技术中的加速及样本外扩展策略

1. 映射构建基础

在构建树结构后,新的点(或查询点)可通过依次测试每个决策规则被分配到叶节点。由于树的每一层(向叶子节点遍历)中,单元格的直径(即单元格中最远两点间的距离)会迅速减小,与查询点处于同一单元格的点很可能是其最近邻。满足单元格直径递减条件的平衡树,能以 $O(N log N)$ 的复杂度找到 $N$ 个点的最近邻。

1.1 不同类型的树结构

  • k - d 树 :将欧几里得空间划分为超矩形单元格。每个决策规则沿一个变量定义的方向分割单元格,并在给定阈值处设置分割界限。该方向选择为使单元格内点分布最分散的方向,阈值可设为这些点对应变量的中位数以构建平衡树。此树在低维欧几里得空间中非常高效,但在高维空间或一般度量空间中不够稳健。
  • 度量树(vantage - point 树) :专为任意维度的度量空间设计。对于度量树的节点,决策规则根据点到参考点的距离分割点,将空间划分为以该点为中心的球内和球外两部分。距离阈值(即球的半径)可设为单元格内点到参考点距离的中位数。好的度量树需要分布良好的参考点。
  • 随机投影树 :实现了与 k - d 树相近的策略,但更适合从高维欧几里得空间中的低维流形采样的点。每个单元格沿与从单位超球随机采样的方向正交的超平面分割。决策规则基于点在该随机轴上的投影分割点。阈值通过取中位数并添加具有特定属性的随机噪声得到。在这些条件下,$\partial log \partial$ 层足以使单元格直径至少减半,其中 $\partial$ 是
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值