coffeefeel-优快云博客

转载 JAVA implementation for Locality Sensitive Hash

private int dimention; //维度大小，例如对于sift特征来说就是128 private int max; //所需向量中元素可能的上限，譬如对于RGB来说，就是255 private int hashCount; //哈希表的数量，用于更大程度地削减false positive //LSH随机选取的采样位数，该值越小，则近似查找能力越大，但相应的false positive也越大；若该值等于size，则为由近似查找退化为精确匹配<

2011-04-04 16:03:00 551

转载 Locality Sensitive Hash

局部敏感哈希——Locality Sensitive Hash是一种常见的用于处理高维向量的索引办法。与其它基于Tree的数据结构，诸如KD-Tree、SR-Tree相比，它较好地克服了Curse of Dimension，能够将KNN的时间复杂度缩减到sub-linear。LSH多被用于文本、多媒体（图像、音频）的相似性判断。请看下图：参考上图，如果我们要返回距离中心为r的点，LSH会返回给我们范围更远、更多的点，也就是说，LSH返回的结果会带有一定的false positive。我们或许需要使用lin

2011-04-04 15:59:00 488

转载 simhash算法的原理

第一次听说google的simhash算法[1]时，我感到很神奇。传统的hash算法只负责将原始内容尽量均匀随机地映射为一个签名值，原理上相当于伪随机数产生算法。传统hash算法产生的两个签名，如果相等，说明原始内容在一定概率下是相等的；如果不相等，除了说明原始内容不相等外，不再提供任何信息，因为即使原始内容只相差一个字节，所产生的签名也很可能差别极大。从这个意义上来说，要设计一个hash算法，对相似的内容产生的签名也相近，是更为艰难的任务，因为它的签名值除了提供原始内容是否相等的信

2011-04-04 13:18:00 425

考研数学习题(附答案)

考研数学习题囊括概率、高数、线代所有习题而且附有答案和详细解答

2008-09-09

算法与数据结构学习指导与习题解析

王晓东：算法与数据结构学习指导与习题解析内容值得一看，有很多算法及解析

2008-10-30

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人