- 博客(3)
- 资源 (6)
- 收藏
- 关注
转载 JAVA implementation for Locality Sensitive Hash
<br /><br />private int dimention; //维度大小,例如对于sift特征来说就是128<br />private int max; //所需向量中元素可能的上限,譬如对于RGB来说,就是255<br />private int hashCount; //哈希表的数量,用于更大程度地削减false positive<br />//LSH随机选取的采样位数,该值越小,则近似查找能力越大,但相应的false positive也越大;若该值等于size,则为由近似查找退化为精确匹配<
2011-04-04 16:03:00
529
转载 Locality Sensitive Hash
局部敏感哈希——Locality Sensitive Hash是一种常见的用于处理高维向量的索引办法。与其它基于Tree的数据结构,诸如KD-Tree、SR-Tree相比,它较好地克服了Curse of Dimension,能够将KNN的时间复杂度缩减到sub-linear。LSH多被用于文本、多媒体(图像、音频)的相似性判断。请看下图: 参考上图,如果我们要返回距离中心为r的点,LSH会返回给我们范围更远、更多的点,也就是说,LSH返回的结果会带有一定的false positive。我们或许需要使用lin
2011-04-04 15:59:00
464
转载 simhash算法的原理
<br /><br />第一次听说google的simhash算法[1]时,我感到很神奇。传统的hash算法只负责将原始内容尽量均匀随机地映射为一个签名值,原理上相当于伪随机数产生算法。传统hash算法产生的两个签名,如果相等,说明原始内容在一定概率下是相等的;如果不相等,除了说明原始内容不相等外,不再提供任何信息,因为即使原始内容只相差一个字节,所产生的签名也很可能差别极大。从这个意义上来说,要设计一个hash算法,对相似的内容产生的签名也相近,是更为艰难的任务,因为它的签名值除了提供原始内容是否相等的信
2011-04-04 13:18:00
399
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人