
algorithms
文章平均质量分 68
iteye_6322
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
simhash原理介绍
前言 local sensitive hash 局部敏感哈希 的东西,据说这玩意可以把文档降维到hash数字,数字两两计算运算量要小很多。查找很多文档后看到google对于网页去重使用的是simhash,他们每天需要处理的文档在亿级别; simhash是由 Charikar 在2002年提出来的,参考 《Similarity estimation techniques from roun...原创 2015-09-14 16:18:21 · 237 阅读 · 0 评论 -
Levenshtein Distance 算法实现
转载文章地址: [url]http://wdhdmx.iteye.com/blog/1343856[/url]1.百度百科介绍:Levenshtein 距离,又称编辑距离,指的是两个字符串之间,由一个转换成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符。编辑距离的算法是首先由俄国科学家Levenshtein提出的,故又叫Lev...原创 2015-09-15 00:43:08 · 205 阅读 · 0 评论 -
比较两个地址相似程度
需求:比较两个地址相似程度1, 排除数字, 排除字母(大小写), 特殊符号如以下三个地址都可以认为是实际相同,只是表述不同: 湖北省-武汉市-东西湖区 湖北省武汉市东西湖区革新大道四明路物流园c5湖北省-武汉市-东西湖区 革新大道四明路物流园c5门湖北省-武汉市-东西湖区 革新大道四明路南特1号实际上,这些地址,前两个是相同的, 第三个是不同的思路:...原创 2015-09-15 17:12:58 · 3950 阅读 · 0 评论 -
余弦相似性的应用: 找出相似文章
今天,我们再来研究另一个相关的问题。有些时候,除了找到关键词,我们还希望找到与原文章相似的其他文章。比如,"Google新闻"在主新闻下方,还提供多条相似的新闻。为了找出相似的文章,需要用到"余弦相似性"(cosine similiarity)。下面,我举一个例子来说明,什么是"余弦相似性"。为了简单起见,我们先从句子着手。[table]| 句子A:我喜欢看电视,不喜欢看电影...原创 2015-09-15 17:28:43 · 143 阅读 · 0 评论 -
余弦相似性的应用: 自动提取关键词
这个标题看上去好像很复杂,其实我要谈的是一个很简单的问题。有一篇很长的文章,我要用计算机提取它的关键词(Automatic Keyphrase extraction),完全不加以人工干预,请问怎样才能正确做到?这个问题涉及到数据挖掘、文本处理、信息检索等很多计算机前沿领域,但是出乎意料的是,有一个非常简单的经典算法,可以给出令人相当满意的结果。它简单到都不需要高等数学,普通人只用10分...原创 2015-09-15 17:32:01 · 112 阅读 · 0 评论 -
汉明距离 Hamming Distance
[code="java"]/**在信息理论中,两个等长字符串之间的汉明距离 * 是两个字符串对应位置上不同字符的个数, * 换句话说,汉明距离就是将一个字符串替换成另外一个字符串所需要替换的字符长度。 *例如,1011101和1001001之间的汉明距离是2, *toned和roses之间的汉明距离是3. *汉明重量是字符串相对于同样长度的零字符串的汉明距离, ...原创 2015-09-16 00:00:14 · 592 阅读 · 0 评论 -
贝叶斯推断及其互联网应用:过滤垃圾邮件
引用一篇文章:贝叶斯推断及其互联网应用1、什么是贝叶斯过滤器?垃圾邮件是一种令人头痛的顽症,困扰着所有的互联网用户。正确识别垃圾邮件的技术难度非常大。传统的垃圾邮件过滤方法,主要有"关键词法"和"校验码法"等。前者的过滤依据是特定的词语;后者则是计算邮件文本的校验码,再与已知的垃圾邮件进行对比。它们的识别效果都不理想,而且很容易规避。2002年,Paul Graham提出使...原创 2015-09-16 00:00:31 · 176 阅读 · 0 评论 -
一致性哈希算法
一致性哈希算法在1997年由麻省理工学院提出的一种分布式哈希(DHT)实现算法,设计目标是为了解决因特网中的热点(Hot spot)问题,初衷和CARP十分类似。一致性哈希修正了CARP使用的简 单哈希算法带来的问题,使得分布式哈希(DHT)可以在P2P环境中真正得到应用。 一致性hash算法提出了在动态变化的Cache环境中,判定哈希算法好坏的四个定义:1、[color=red...原创 2015-09-25 00:27:28 · 233 阅读 · 0 评论