二级存储中的动态集群列表与索引基R - S相似连接算法研究
1. 动态集群列表(DLC)概述
在二级存储中处理数据时,为了高效地读取候选集群,避免不必要的磁盘寻道操作,我们可以先根据磁盘页号对所有候选集群进行排序,然后再逐个读取。对于范围搜索,我们可以通过这种方式优化读取效率。而最近邻搜索算法则可以基于范围搜索以最优方式构建。在寻找距离查询点 q 最近的 k 个对象时,需要按 d(q, center(C)) - cr(C) 的下界距离对候选集群集合进行遍历,以便尽快缩小当前搜索半径。当已知的第 k 个最近邻比未探索集群的最小 d(q, center(C)) - cr(C) 值更近时,搜索过程停止。
2. 实验设置
为了全面评估索引的性能,我们从SISAP度量库中选择了三个差异较大的度量空间进行实验,磁盘页大小设定为4KB:
- 单词数据集 :包含69,069个英语单词,使用编辑距离作为度量,即通过最少的字符插入、删除和替换操作使两个字符串相等所需的操作数。
- 图像数据集 :由40,700个20维特征向量组成,这些向量从NASA图像生成,使用欧几里得距离。
- 直方图数据集 :包含112,682个8维颜色直方图(112维向量),同样使用欧几里得距离。
在搜索实验中,我们使用90%的元素构建索引,另外10%(随机选择)作为查询。所有结果是在使用不同数据集排列构建的10个
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



