一文了解局部敏感哈希（LSH）的前世今生

最新推荐文章于 2024-09-02 16:34:27 发布

置顶

wlg于初

最新推荐文章于 2024-09-02 16:34:27 发布

阅读量1.9k

点赞数

本文链接：https://blog.youkuaiyun.com/m0_37710845/article/details/106725631

版权

本文深入探讨了局部敏感哈希（LSH）在高维空间中进行近似Top-k查询的原理和优势。通过介绍LSH的背景、定义和实例，阐述了其如何通过将高维数据映射到低维空间，减少计算复杂性。文章还分析了LSH的优缺点，以及在实际应用中的改进方法，如多组哈希表和动态碰撞计数等，以提升查询质量和效率。最后，回顾了LSH的发展历程，包括各种变种算法的出现和改进。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

本文提要

在这篇博客中，我将首先介绍一个广泛被使用的Top-k查询操作和当前学术界加快这一查询的做法。第二，我将分析LSH如何实现加快查询，并介绍LSH的定义和给出一个例子来分析。最后，我最早关于LSH的论文以及它们的缺点，并引出后续相关论文的优化和缺点。

背景

Top-k查询，也就是给定一个目标 $o$ ，在一个数据集中找出和目标o最相似的k个目标。这一查询在各类应用中被广泛使用，例如聚类算法等。以下几个是实现方案：

暴力算法：实现Top-k查询，也就是计算 $o$ 和数据集中每一个目标的相似度，然后排序找出前k个。我们假设一个房子特征目标o={ $a_0=$ 地理， $a_1=$ 房子尺寸， $a_2=$ 楼层，…， $a_m=$ 新旧}（这经常被用在机器学习中），典型地采用欧式距离计算两个目标 $o_1=\{a_0,a_1,...a_m\},o_2=\{b_0,b_1,...,b_m\}$ 的相似度： $d(o_1,o_2)=\sqrt{(a_0-b_0)^2+(a_1-b_1)^2,...,(a_m-b_m)^2}$ ,这一时间复杂度是 $O (m)$ ，假设数据集大小为 $n$ ，那么执行一次Top-k的复杂度为 $O (m n) + O (l o g (n))$ ，其中 $m$ 是数据维度，后者是排序复杂度。
显然，这一复杂度是十分高昂的，特别是在数据集的维度 $m$ 很大时，一次查询的时间会很长。

空间划分算法：为了改善查询效率，研究学者提出了包括Kd-Tree，R-Tree，PM-Tree等各类空间划分算法，但不幸的是，他们只适用于 $m$ 较小的情况下，典型地10~15以下。

在数十年的研究之后，学者发现要想准确地找到所有Top-k结果，高额的时间开销是难以避免的，因此近似的(approximate）Top-k查询的概念被提出。具体而言，近似Top-k查询找到的k个结果不一定是精确Top-k查询的结果。一般而言，我们用Recall来衡量近似Top-k查询结果的质量：
$\text {Recall}=\frac{\left|R \cap R^{*}\right|}{\left|R^{*}\right|}$
其中， $R=\{o_0,o_1,...,o_k \}$

最低0.47元/天解锁文章