
searchengine
文章平均质量分 79
dayun
这个作者很懒,什么都没留下…
展开
-
Lucene的特性分析
Lucene的特性分析 来源: http://www.cnblogs.com/bysshijiajia/archive/2008/03/28/1127004.html3.1. Lucene核心部分——索引排序 Lucene 的索引排序是使用了倒排序原理。 该结构及相应的生成算法如下: 设有两篇文章1和2 文章1的内容为:Tom lives in Guangzhou,I live in Gu转载 2008-04-02 17:16:00 · 600 阅读 · 0 评论 -
Lucene 2.4.0 一些过期方法的替代
Lucene 2.4.0 一些过期方法的解决方案来源:http://hi.baidu.com/deepeye/blog/item/4c688e108292f606203f2e50.htmlLucene 2.4.0 是2008年10月8日发布的版本,许多之前版本中的方法和类被声明为过期(@deprecated),且某些方法和类被声明在3.0引擎中将被删除。以下是常用的几个转载 2009-06-19 11:41:00 · 1194 阅读 · 0 评论 -
HTMLParser使用详解(3)- 通过Filter访问内容
来源:http://allenj2ee.javaeye.com/blog/222456HTMLParser遍历了网页的内容以后,以树(森林)结构保存了结果。HTMLParser访问结果内容的方法有两种。使用Filter和使用Visitor。(一)Filter类顾名思义,Filter就是对于结果进行过滤,取得需要的内容。HTMLParser在org.htmlparser.filters包之内一共转载 2009-08-21 00:32:00 · 476 阅读 · 0 评论 -
HTMLParser使用详解(4)- 通过Visitor访问内容
来源:http://allenj2ee.javaeye.com/blog/222457HTMLParser遍历了网页的内容以后,以树(森林)结构保存了结果。HTMLParser访问结果内容的方法有两种。使用Filter和使用Visitor。下面介绍使用Visitor访问内容的方法。4.1 NodeVisitor从简单方面的理解,Filter是根据某种条件过滤取出需要的Node再进行处理。Vis转载 2009-08-21 09:55:00 · 479 阅读 · 0 评论 -
HTMLParser使用详解(2)- Node内容
来源:http://allenj2ee.javaeye.com/blog/222455HTMLParser将解析过的信息保存为一个树的结构。Node是信息保存的数据类型基础。请看Node的定义:public interface Node extends Cloneable;Node中包含的方法有几类:对于树型结构进行遍历的函数,这些函数最容易理解:Node getParent ():取得父转载 2009-08-21 09:51:00 · 482 阅读 · 0 评论 -
Windows下Nutch的安装过程
来源:http://read.newbooks.com.cn/info/196850.html一、基本要求1. Java 1.4.x这里是Sun的Java官方网站,这里可以下载到J2EE SDK 1.4版本的安装程序。2. Apaches Tomcat 4.x这里是Apaches Tomcat的官方网站,这里可以下载到Apaches Tomcat 6.0版本的安装程序。3. Cygwin转载 2009-04-21 23:37:00 · 772 阅读 · 0 评论 -
数学之美系列六 -- 图论和网络爬虫 (Web Crawlers)
2006年5月15日 上午 07:15:00uT("time114733040963327560");发表者: 吴军,Google 研究员 [离散数学是当代数学的一个重要分支,也是计算机科学的数学基础。它包括数理逻辑、集合论、图论和近世代数四个分支。数理逻辑基于布尔运算,我们已经介绍过了。这里我们介绍图论和互联网自动下载工具网络爬虫 (Web Crawlers) 之间的关系。顺转载 2008-12-28 23:17:00 · 637 阅读 · 0 评论 -
数学之美 系列三 -- 隐含马尔可夫模型在语言处理中的应用
Google (谷歌)中国的博客网志,走近我们的产品、技术和文化数学之美 系列三 -- 隐含马尔可夫模型在语言处理中的应用2006年4月17日 上午 08:01:00uT("time114523190259377514");发表者:吴军,Google 研究员前言:隐含马尔可夫模型是一个数学模型,到目前为之,它一直被认为是实现快速精确的语音识别系统的最成功的方法。复杂转载 2008-10-30 00:24:00 · 573 阅读 · 0 评论 -
数学之美 系列九 -- 如何确定网页和查询的相关性
Google (谷歌)中国的博客网志,走近我们的产品、技术和文化数学之美 系列九 -- 如何确定网页和查询的相关性2006年6月27日 上午 09:53:00uT("time115137628966847870");发表者:吴军,Google 研究员 [我们已经谈过了如何自动下载网页、如何建立索引、如何衡量网页的质量(Page Rank)。我们今天谈谈如何确定转载 2008-10-29 00:51:00 · 442 阅读 · 0 评论 -
数学之美系列五 -- 简单之美:布尔代数和搜索引擎的索引
Google (谷歌)中国的博客网志,走近我们的产品、技术和文化数学之美系列五 -- 简单之美:布尔代数和搜索引擎的索引2006年5月10日 上午 09:10:00uT("time114722733511630150");发表者: 吴军,Google 研究员 [建立一个搜索引擎大致需要做这样几件事:自动下载尽可能多的网页;建立快速有效的索引;根据相关性对网页进行公平转载 2008-10-29 00:31:00 · 433 阅读 · 0 评论 -
Bloom Filter概念和原理
Bloom Filter概念和原理焦萌 2007年1月27日 Bloom Filter是一种空间效率很高的随机数据结构,它利用位数组很简洁地表示一个集合,并能判断一个元素是否属于这个集合。Bloom Filter的这种高效是有一定代价的:在判断一个元素是否属于某个集合时,有可能会把不属于这个集合的元素误认为属于这个集合(false positive)。因此,Bloom Filter不适转载 2010-04-15 16:46:00 · 1472 阅读 · 0 评论