基于随机平分线的度量空间搜索:RBBF1索引的原理与应用
1. 引言
在度量空间搜索中,主要有两种基本查询类型:范围查询和k近邻查询。范围查询 (q, r) 会检索出集合 U 中与查询点 q 距离在 r 以内的所有元素;k近邻查询 NNk(q) 则会找出集合 U 中距离查询点 q 最近的 k 个元素。虽然可以通过穷举扫描数据库来回答这两种查询,但由于距离函数的计算成本较高,通常会以距离评估的总次数来定义搜索的复杂度,而不是使用CPU或I/O时间等指标。因此,构建一个离线索引以加速在线查询的解决过程成为了最终目标。
本文提出了一种基于随机平分线和二进制指纹的新型度量空间索引(RBBF1),用于近似解决相似性搜索问题。该索引的一个显著优点是只需要极少的空间。在实验中,对于在欧几里得距离下的128维均匀分布向量的困难度量空间,求解 NN1(q) 时,该方法只需分析10%的数据集就能检索到98%的真实答案,并且每个元素在索引中仅使用288位。相比之下,最先进的基于排列的索引(PBI)只能检索到77%的答案。
2. 相关工作
- 基于紧凑分区的索引 :这类方法将空间尽可能紧凑地划分为多个区域。对于每个分区,存储一个代表对象和额外信息,以便在查询时排除该分区。可分为Voronoi分区和覆盖半径方案:
- Vor
RBBF1索引原理与应用
超级会员免费看
订阅专栏 解锁全文
2048

被折叠的 条评论
为什么被折叠?



