
搜索引擎
iteye_7465
这个作者很懒,什么都没留下…
展开
-
中文分词算法
尽管最大匹配法分词是常用的解决的方案,但是无疑它存在很多明显的缺陷,这些缺陷也限制了最大匹配法在大型搜索系统中的使用频率。最大匹配法的问题有以下几点:一、长度限制由于最大匹配法必须首先设定一个匹配词长的初始值,这个长度限制是最大匹配法在效率与词长之间的一种妥协。我们来看一下以下两种情况:(1)词长过短,长词就会被切错。例如当词长被设成5时,也就意味着它只能分出长度为5以下词,例如当这个词为“...原创 2009-04-08 09:55:52 · 165 阅读 · 0 评论 -
heritrix学习总结
1 下载 和 解压 从http://crawler.archive.org/下载解压到本地 E:\heritrix-1.14.3 2 配置环境变量 HERITRIX_HOME=E:\heritrix-1.14.3 path后追加 ;%HERITRIX_HOME%\bin 3 配置 heritrix 拷贝E:\heritrix-1.14.3\conf\jmxremote.password.tem...原创 2010-09-03 11:18:19 · 70 阅读 · 0 评论 -
和robots和sitemap
转载自:http://soft.whsjsoft.com/go/477812.html 这是google网站管理员工具提供的最新报告。 robots.txt文件内容可当一个robots的参考范例:User-agent: *Disallow: /wp-admin/Disallow: /wp-content/Disallow: /wp-includes/几乎所有搜索引擎都尊从robots协议,...原创 2010-09-04 08:28:09 · 223 阅读 · 0 评论 -
数学之美系列二十一 - 布隆过滤器(Bloom Filter)
今天在培训中听到目前的一个产品用到Bloom Filter,非常可惜之前没仔细看,现在重新温习下,吸取精华思想。在日常生活中,包括在设计计算机软件时,我们经常要判断一个元素是否在一个集合中。比如在字处理软件中,需要检查一个英语单词是否拼写正确(也就是要判断它是否在已知的字典中);在 FBI,一个嫌疑人的名字是否已经在嫌疑名单上;在网络爬虫里,一个网址是否被访问过等等。最直接的方法就是将集...原创 2011-06-22 18:49:36 · 180 阅读 · 0 评论