通用度量数据的大规模分布式局部敏感哈希技术
1. 局部敏感哈希技术概述
在数据处理和搜索领域,局部敏感哈希(LSH)是一种重要的技术,用于在高维数据中快速查找相似项。不同的LSH技术适用于不同的场景和数据类型。
- 结构化量化器与数据自适应函数 :一些方法使用与数据无关的结构化量化器(如随机线、格点上的单元格),但实验表明数据自适应函数的性能优于数据无关的函数。
- DFLSH(无分布局部敏感哈希) :基于Voronoi图诱导的哈希函数原理工作,但它从数据集中随机选择质心,而不是使用K - means算法。其优点是通用性强,可用于任何能构建Voronoi图的空间。
- 基于BPI(简要邻近索引)的LSH :通过一组称为置换点的视角来推断相似性。如果点p和点q看到置换点的顺序相同,则它们可能彼此接近。该方法分为两个步骤:首先创建置换索引,然后使用汉明空间的LSH对置换索引进行哈希。
- M - Index :是一种用于精确和近似相似性搜索的度量访问方法,通过从原始度量空间到标量值的通用映射构建。映射的值受一组参考点的排列顺序和到这些点的距离影响。
然而,目前将LSH推广到所有度量空间的工作更多地侧重于提出实用技术并通过实验证明其有效性,而不是从理论上严格证明该方案遵循Indyk和Motwani提出的局部敏感性公理。
2. Voronoi LSH和并行Voronoi LSH
2.1 Voronoi LSH原理
Voronoi LSH的每个哈希表都使
超级会员免费看
订阅专栏 解锁全文
14

被折叠的 条评论
为什么被折叠?



