文章目录
Locality Sensitive Hashing.
在机器学习领域,经常会面临检索问题:比如给定一个特征向量,检索数据库中与其相似的特征向量。如果是在低维度的小数据集中,可以使用线性查找(Linear Search,如KNN)的方法;但是在高维度大数据集中,线性查找的效率很低,显然是不可行的。
如何从高维度大数据集中找到与某个向量最相似的一个或多个向量,是检索任务中的一个难点。
在这种高维度大数据集中的检索,通常需要使用最近邻最相似查找(Approximate Nearest Neighbor, ANN)的方法。局部敏感哈希(Locality Sensitive Hashing, LSH) 是一种最近邻最相似搜索算法,有比较可靠的理论根据且在高维数据中表现比较好,很适合应用在检索任务中。
与一般的哈希算法不同,局部敏感哈希具有位置敏感性,也就是散列前类似的点(距离近的点)&#