14、二级存储中的动态集群列表与索引基R - S相似连接算法研究

脸先着地天使

于 2025-10-01 15:39:44 发布

阅读量16

点赞数

CC 4.0 BY-SA版权

分类专栏：相似性搜索前沿探析文章标签：动态集群列表 DLC 二级存储

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/jwt8token/article/details/153807213

相似性搜索前沿探析专栏收录该内容

37 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

二级存储中的动态集群列表与索引基R - S相似连接算法研究

1. 动态集群列表（DLC）概述

在二级存储中处理数据时，为了高效地读取候选集群，避免不必要的磁盘寻道操作，我们可以先根据磁盘页号对所有候选集群进行排序，然后再逐个读取。对于范围搜索，我们可以通过这种方式优化读取效率。而最近邻搜索算法则可以基于范围搜索以最优方式构建。在寻找距离查询点 q 最近的 k 个对象时，需要按 d(q, center(C)) - cr(C) 的下界距离对候选集群集合进行遍历，以便尽快缩小当前搜索半径。当已知的第 k 个最近邻比未探索集群的最小 d(q, center(C)) - cr(C) 值更近时，搜索过程停止。

2. 实验设置

为了全面评估索引的性能，我们从SISAP度量库中选择了三个差异较大的度量空间进行实验，磁盘页大小设定为4KB：
- 单词数据集 ：包含69,069个英语单词，使用编辑距离作为度量，即通过最少的字符插入、删除和替换操作使两个字符串相等所需的操作数。
- 图像数据集 ：由40,700个20维特征向量组成，这些向量从NASA图像生成，使用欧几里得距离。
- 直方图数据集 ：包含112,682个8维颜色直方图（112维向量），同样使用欧几里得距离。

在搜索实验中，我们使用90%的元素构建索引，另外10%（随机选择）作为查询。所有结果是在使用不同数据集排列构建的10个

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。