基于主方向的枢轴放置与排列相似性搜索枢轴选择策略
1. 引言
在众多领域中,度量空间的相似性搜索是一项基础任务。范围查询作为其中一种重要的查询类型,以查询对象 q 和半径 R 作为输入,返回数据集中与 q 距离在 R 范围内的所有对象。
基于枢轴的索引方法是度量空间对象索引的主要技术之一。其核心思想是选择一定数量的对象作为枢轴。利用反向三角不等式,在回答范围查询时,可以利用距离下限来排除那些与查询对象距离不在 R 范围内的对象。具体来说,在索引构建阶段,会存储数据集中对象与枢轴之间的所有成对距离;在查询阶段,首先计算查询对象与所有枢轴的距离,然后通过枢轴计算的下限选择候选对象,最后通过计算查询对象与每个候选对象的实际距离来获取真正的邻居对象。
然而,最小化候选集中的虚假对象数量是一个具有挑战性的问题。通常,枢轴数量越多,候选集中的虚假对象数量越少。在枢轴数量固定的情况下,巧妙地选择枢轴可以显著提高索引性能。
2. 现有枢轴选择策略
目前,大多数枢轴选择策略都是从待索引的对象集中选择枢轴。常见的策略如下:
- 随机组选择策略(Selection of N Random Groups) :从数据集中随机选择 N 个每组包含 k 个枢轴的组,对每组枢轴的质量进行评估,返回质量得分最高的组。
- 增量选择策略(Incremental Selection)
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



