基于排列的相似性搜索中支点选择策略研究
1. 引言
在相似性搜索领域,基于排列的访问方法通过支点构建排列来表示数据对象。支点的选择对于索引结构的有效性和效率至关重要,不同的支点选择策略会对搜索结果产生显著影响。本文将介绍几种支点选择策略,并结合不同的排列索引结构进行综合评估。
2. 相关工作
在度量空间的相似性搜索中,支点选择策略的研究自九十年代以来一直是活跃的研究课题。以下是一些常见的支点选择方法:
- 远离数据簇选择 :早期研究发现,将支点定位在远离数据簇的位置能获得较好的性能。后续有多种启发式方法被提出,用于在离群点之间选择支点,使它们彼此远离。
- 最大化距离分布均值 :有方法尝试最大化支点空间中距离分布的均值,以选择合适的支点。
- 动态支点选择 :随着数据库的增长,动态支点选择问题也得到了研究。
- 主成分分析(PCA) :通过对数据集应用PCA,识别主成分,并选择与主成分向量最匹配的对象作为支点。
然而,使用基于排列的索引技术的工作大多随机选择支点,因为支点在基于排列的索引中的作用与传统基于支点的访问方法有很大不同,且以往的选择策略并未显示出显著优势。
3. 支点选择策略
本文比较了四种有前景的支点选择策略:
|策略名称|策略描述|计算复杂度|
| ---- | ---- | ---- |
|随机(rnd)策略|从数据集中按照均匀概率分布采样支点| - |
|最远优先遍历