
数据挖掘
文章平均质量分 76
snow2013
这个作者很懒,什么都没留下…
展开
-
simHash 简介以及java实现
传统的hash 算法只负责将原始内容尽量均匀随机地映射为一个签名值,原理上相当于伪随机数产生算法。产生的两个签名,如果相等,说明原始内容在一定概 率 下是相等的;如果不相等,除了说明原始内容不相等外,不再提供任何信息,因为即使原始内容只相差一个字节,所产生的签名也很可能差别极大。从这个意义 上来 说,要设计一个 hash 算法,对相似的内容产生的签名也相近,是更为艰难的任务,因为它的签名值除了转载 2013-12-27 18:04:28 · 726 阅读 · 0 评论 -
开源 Java 中文分词器 Ansj 作者孙健专访
转自:http://www.iteye.com/magazines/102Ansj 是一个开源的 Java 中文分词工具,基于中科院的 ictclas 中文分词算法,比其他常用的开源分词工具(如mmseg4j)的分词准确率更高。 在线演示:http://ansj.sdapp.cn/demo/seg.jsp 官网地址:http://www.ansj.org/ Gi转载 2013-12-31 09:50:09 · 862 阅读 · 0 评论 -
短文本合并重复(去重)的简单有效做法
http://www.cnblogs.com/zhengyun_ustc/archive/2012/06/12/sim.html不大合适的SimHash前些日子看了Charikar SimHash的介绍《Simhash算法原理和网页查重应用》,核心思想是用一个f位的hash值来表示文件的特征值,然后使用hash值之间的Hamming距离来衡量相似性。输入的是一个文档转载 2013-12-28 14:23:11 · 922 阅读 · 0 评论 -
相似文档查找算法之 simHash 简介及其 java 实现
传统的 hash 算法只负责将原始内容尽量均匀随机地映射为一个签名值,原理上相当于伪随机数产生算法。产生的两个签名,如果相等,说明原始内容在一定概 率 下是相等的;如果不相等,除了说明原始内容不相等外,不再提供任何信息,因为即使原始内容只相差一个字节,所产生的签名也很可能差别极大。从这个意义 上来 说,要设计一个 hash 算法,对相似的内容产生的签名也相近,是更为艰难的任务,因为它的签名值除了提转载 2013-12-28 13:12:37 · 1337 阅读 · 0 评论 -
simhash(局部敏感哈希)的原理及应用
imhash的背景 simhash广泛的用于搜索领域中,也许在面试时你会经常遇到这样的问题,如果对抓取的网页进行排重,如何对搜索结果进行排重等等。随着信息膨胀时代的来临,算法也在不断的精进,相似算法同样在不断的发展,接触过lucene的同学想必都会了解相似夹角的概念,那就是一种相似算法,通过计算两个向量的余弦值来判断两个向量的相似性,但这种方式需要两两进行计算向量的余弦夹角,计算量比较大,不能转载 2013-12-28 13:14:06 · 1193 阅读 · 0 评论