大规模数据相似性搜索与动态集群列表技术解析
在当今的信息时代,大规模数据的相似性搜索在基于内容的多媒体信息检索(CMIR)系统中扮演着至关重要的角色。然而,由于这些系统通常使用高维特征向量或其他复杂的度量空间表示,实现快速的相似性搜索一直是一个持续的研究挑战。
大规模分布式局部敏感哈希(LSH)的探索
LSH 作为一种非常成功的方法家族,被提出作为解决这一问题的方案,但它仅适用于少数距离函数。为了克服这一限制,研究人员提出将 LSH 扩展到一般度量空间,以 Voronoi 图为基础构建 LSH 函数家族。
实验表明,使用 Voronoi 图对数据进行索引在度量数据和欧几里得数据上都表现良好。令人意外的是,通过聚类学习 Voronoi 图的种子并没有明显优势,随机选择似乎也能达到同样的效果。聚类对召回率没有显著影响这一结果有些令人失望,需要通过评估更多多样化的数据集来进一步证实。不过,如果得到证实,这对于可扩展性来说将是一个重要的提示,因为通过聚类学习种子的成本很高。另一方面,聚类在某些情况下可能会影响查询时间,这可能是由于数据划分更加均匀,而随机种子往往会导致数据集在哈希表的桶中分布不均衡。
大规模实验显示,所提出的并行化方案开销非常小,即使对于非常大的数据集也能很好地扩展。
以下是相关实验结果的简单表格展示:
| 实验内容 | 结果 |
| ---- | ---- |
| Voronoi 图索引效果 | 对度量和欧几里得数据均良好 |
| 聚类学习种子效果 | 无明显优势,随机选择效果相当 |
| 并行化方案扩展性 | 开销小,大数据集下扩展良好 |
超级会员免费看
订阅专栏 解锁全文
743

被折叠的 条评论
为什么被折叠?



