LSH-局部敏感哈希

最新推荐文章于 2025-01-10 13:30:03 发布

转载最新推荐文章于 2025-01-10 13:30:03 发布 · 104 阅读

0 ·

CC 4.0 BY-SA版权

原文链接：http://www.cnblogs.com/andyniu/p/7610989.html

LSH的基本思想是：

将原始数据空间中的两个邻近数据点通过某种映射或变换，使得这两个数据点在变换后的数据空间中仍然相邻的概率很大，而不相邻的数据点被映射到同一个桶的概率很小。

因此，最最重要的就变成了就是找到一个这样的映射或变换，也就是所谓的hash function。有没有觉得如果找到一簇这样的函数，一下子天空都变蓝了。

那么hash function应该怎样用数学语言来描述呢？

对于任意q,p属于S，若从集合S到U的函数族H={h1,h2…hn}对距离函数D(q,p)，如欧式距离、曼哈顿距离等等，满足条件

$D(p,q){\leq}r$且$Pro[h(p)=h(q)]{\geq}p_{1}$

$D(p,q)>r(1+{\varepsilon})$且$Pro[h(p)=h(q)]{\leq}p_{2}$

则称为D(p,q)是位置敏感的。

这两个公式就是开头的一句话的数学模型而已。

这里说明一下，LSH不是确定性的，而是概率性的，也就是说有一定的概率可能将两个距离很远的映射到一个捅中，将距离很近的映射到不同的捅中。这是在进行降维的时候带来的不可避免的缺陷。

不同的距离函数需要使用不同的LSH算法，目前不存在一种统一的LSH算法。

转载于:https://www.cnblogs.com/andyniu/p/7610989.html

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_30716725

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

相似性搜索：第 5 部分--局部敏感哈希 （LSH）

gongdiwudu的专栏

10-15

5661

在本系列文章的前几部分中，我们讨论了倒排文件索引、产品量化和 HNSW 以及如何将它们一起使用以提高搜索质量。在本章中，我们将研究一种主要不同的方法，该方法可以保持高搜索速度和质量

minHash(最小哈希)和LSH(局部敏感哈希)

02-26

553

在数据挖掘中，有一个比较基本的问题，就是比较两个集合的相似度。关于这个问题，最笨的方法就是用一个两重循环来遍历这两个集合中的所有元素，进而统计这两个集合中相同元素的个数。但是，当这两个集合里的元素数量非常庞大时，同时又有很多个集合需要判断两两之间的相似度时，这种方法就呵呵了，对内存和时间的消耗都非常大。因此，为了解决这个问题，数据挖掘中有另一个方法。

参与评论您还未登录，请先登录后发表或查看评论

LSH技术---Finding Similar Items

I am not a quitter.

11-19

3101

承接上一篇博客，我们使用minhash压缩内容量较大的文档，但是文档相互之间的相似性计算仍然比较麻烦，因为两两之间的文档pairs太多了。有时候我们只需要最相似的文档pairs，没有必要计算所有pairs，为此我们引入LSH(locality-sensitive hashing)技术。 LSH的基本思想是：将原始数据空间中的两个相邻数据点通过相同的映射后，这两个数据点在新的数据空间中仍然相

局部敏感哈希（LSH）相似度（杰卡德距离计算稀疏矩阵）分析TopN

码上中年的博客

01-08

2065

局部敏感哈希（LSH）相似度（杰卡德）分析TopN 概念 局部敏感哈希，英文locality-sensetive hashing，常简称为LSH。局部敏感哈希在部分中文文献中也会被称做位置敏感哈希。LSH是一种哈希算法，最早在1998年由Indyk在[1]上提出。不同于我们在数据结构教材中对哈希算法的认识，哈希最开始是为了减少冲突方便快速增删改查，在这里LSH恰恰相反，它利用的正式哈希冲...

基于欧式距离的海量高维向量相似度计算方法综述及局部敏感哈希 Cross-polytope LSH 简介

wonner_的博客

07-13

5420

在做海量高维向量相似度快速计算比赛时，对最近邻搜索方法做了一些泛读和总结。主要以下分为几大类。一是基于树形的高维索引，如kd-tree，R-tree等，但当维度较高时，查询性能急剧下降。二是基于map-reduce方法，选择合适个数的中心点，相当于一个聚类操作，将一个中心点定义为一个cell。使用多个计算节点将查找集和被查找集同时映射到距离最近的中心点，也就是对应的cell...

LSH（局部敏感度哈希）

weixin_41332009的博客

01-19

4592

LSH（局部敏感度哈希） 1 intuition 在很多应用领域中，我们面对和需要处理的数据往往是海量并且具有很高的维度，怎样快速地从海量的高维数据集合中找到与某个数据最相似（距离最近）的一个数据或多个数据成为了一个难点。例如推荐系统的用户协同过滤中，我们拥有4亿活跃用户，每个用户可以用一个高维向量表示，如果计算用户的两两相似度，需要花费很长的时间；在商品协同过滤中，单JD泰国就拥有超过2500万个商品，每个商品可以用一个高维向量表示(商品名称的embedding+一些数值型属性)，如果要计算所有商

LSH系列3：p-stable LSH&E2LSH——原理介绍

W24的博客

10-13

5594

p-stable LSH 背景 LSH 方法是处理海量高维数据 Approximate Nearest Neighbor（ANN）查询的有效的方法。在处理欧氏空间中 ANN 问题时，原始的 LSH（Original LSH）方法将原始空间中的点嵌入到 Hamming 空间中，即将欧氏空间中点的表示形式转换成 Hamming 空间中点的表示形式，原始空间中的距离度量转换成 Hamming 空间中的距离度量，即 Hamming距离（其定义为两个等长序列各位进行异或运算，结果为 1 的个数）。对应该汉明距离

局部敏感哈希 python实现_LSH-局部敏感哈希

weixin_39880479的博客

11-14

807

一. 近邻搜索局部敏感哈希，英文locality-sensetive hashing，常简称为LSH。局部敏感哈希在部分中文文献中也会被称做位置敏感哈希。LSH是一种哈希算法，最早在1998年由Indyk在上提出。不同于我们在数据结构教材中对哈希算法的认识，哈希最开始是为了减少冲突方便快速增删改查，在这里LSH恰恰相反，它利用的正式哈希冲突加速检索，并且效果极其明显。LSH主要运用到高维海量数据的...

向量检索的算法-局部敏感哈希

keyboard专栏

01-10

1130

局部敏感哈希（LSH）通过设计合适的哈希函数，使得相似的数据点在高维空间中有更高的概率被映射到相同的哈希桶，从而加速了近似最近邻的搜索。LSH 适用于大规模、高维数据集，尤其在图像检索、文本检索和推荐系统等领域有着广泛的应用。尽管 LSH 具有较好的查询效率，但其性能仍然依赖于哈希函数的设计和哈希冲突的处理。

LSH-局部敏感哈希在k-NN算法中的应用

佐井白白的微笑

01-04

857

本内容整理自coursera,欢迎交流转载。 1.KD-Tree算法的局限性在前一篇博客里，我介绍了KD-Tree来简化最邻近查找算法，降低了计算量，但是KD-Tree真的是最好的吗？有没有对于k-NN算法更好的找到最邻近数据的方法呢？先来说一下KD-Tree不好的地方，首先算法效率不高；第二，问题需要在高维数据求解。如何理解“高维”呢？在前一篇博客里，我们的数据集只有X和Y两个特征，但是在

机器学习笔记 - 局部敏感哈希简介

学以致用知行合一

07-06

1063

假设我们需要在 N=1 万个文档中查找近乎重复的文档。如果我们必须计算每对文档的成对相似性，即 N（N-1）/2 ≈ 5*10¹¹ 比较。即使使用最先进的处理器，也需要数天的时间来计算。我们可以通过减少需要计算相似性的候选者来加快计算速度。这可以通过将文档向量散列到存储桶中来实现。给定文件 D1 和 D2如果我们能找到一个哈希函数 h，使得：如果 sim（D1，D2）很高，则概率很高 h（D1） = h（D2）如果 sim（D1，D2）很低，则概率很高 h（D1） ≠ h（D2）

LSH(local sensitive hash)详解

热门推荐

xiaopei的博客

09-17

2万+

LSH local sensitive hash，来自于 mining of massive datasets 包括lsh的详细介绍以及针对不同距离函数的LSH。作用：解决的问题：相似性计算，避免两两计算，提供一组Hash函数，将相似的pair放在一个bucket里面，降低计算规模。约束： Hash函数的要求: 1.相似的pair比不相似的paire更容易成为candidate

嵌入式C语言从入门到精通视频教程.zip

08-21

目录： 1.1C语言会被淘汰吗?.mp4 1.2 如何成为嵌入式高手.mp4 1.3 搭建开发环境.mp4 1.4初识程序结构.mp4 1.5单片机程序的编译与运行简介.mp4 2.1 单片机中数据表现形式.mp4 2.2 为什么要引入数据类型.mp4 2.3 为什么要使用C99的整数类型.mp4 2.4 sizeof用法.mp4 2.5 GPIO输出速度影响什么.mp4 2.5 负数的二进制表现形式.mp4 2.6 变量的用法与注意事项.mp4 2.7 浮点型数据类型 2.8 一个字符引入的BUG 2.9 浮点数应用注意事项 2.10 为什么要引入ASCII码 3.1 C语言有哪些运算符 3.2 算数运算符及应用案例 3.3 算数复合赋值运算符 3.4 增1和减1运算符及应用案例 3.5 单片机是如何控制外设的 3.6 牢记位运算符的口诀 3.7 逻辑移位与算数移位的区别 3.8 左移右移位运算应用案例 3.9 位运算应用案例1.mp4 3.10 位运算应用案例2 .mp4 4.1 printf的基本用法.mp4 4.2 printf的精细格式控制.mp4 4.3 printf输出转义序列.mp4 5.1数据运算的类型转换.mp4 5.2数据截断和数据扩充的规则.mp4 5.3数据扩充的应用案例和总结.mp4 5.4数据运算发生溢出的危害.mp4 5.5 数据扩充案例.mp4 5.6 24000000U中的U是做什么用的?.mp4 6.1 bool数据类型.mp4 ............ 网盘文件永久链接

该课题为基于Matlab的人脸考勤系统。如果需要硬件结合的话，可以调取摄像头。带有人机交互界面。可以在人机交互界面的基础之上，进行相应的拓展。人脸库可以使用您自己的真实人脸库。(11).zip

08-21

该课题为基于Matlab的运动目标跟踪系统。可以实时框定运动目标。对运动目标的行为做识别。带有人机交互界面，需要在人机交互界面的基础上进行拓展(12).zip

08-21

毫米波MIMO系统中基于凹度近似的功率分配.zip

08-21

1.版本：matlab2014a/2019b/2024b 2.附赠案例数据可直接运行。 3.代码特点：参数化编程、参数可方便更改、代码编程思路清晰、注释明细。 4.适用对象：计算机，电子信息工程、数学等专业的大学生课程设计、期末大作业和毕业设计。

该课题为基于Matlab的运动目标跟踪系统。可以实时框定运动目标。对运动目标的行为做识别。带有人机交互界面，需要在人机交互界面的基础上进行拓展(21).zip