
Nutch&Lucene
文章平均质量分 54
wmingluo
这个作者很懒,什么都没留下…
展开
-
开始研究Nutch搜索引擎
公司的需要,现在要搞个关于Nutch的项目,搜索以前没接触过,很新颖也很有挑战Nutch是一个java开源的搜索引擎,功能非常强大,现在已经广泛应用于各种类型的公司和机构,Nutch搜索是一个很有前景的框架,认真努力研究Nutch !原创 2007-01-22 20:22:00 · 1007 阅读 · 0 评论 -
Lucene的介绍
1 Lucene 的介绍提到 Lucene 很多人都知道这个开源的搜索工具,其魅力也是很大的。它让我们对搜索引擎的认识不在那么神秘,也不会在觉得百度和 google 的技术多么的高深没测,其实其原理都是一样的,只是他们要做的更好,走的更远罢了。Lucene 可以对任何的数据做索引和搜索,说这样的话其实不过分,真的就是这样,只要你能处理好这些数据,交给 Lucene 去建立索引它都转载 2007-01-22 20:26:00 · 1040 阅读 · 0 评论 -
Nutch爬虫工作流程
Nutch爬虫工作流程Nutch主要分为两个部分:爬虫crawler和查询searcher。Crawler主要用于从网络上抓取网页并为这些网页建立索引。Searcher主要利用这些索引检索用户的查找关键词来产生查找结果。两者之间的接口是索引,所以除去索引部分,两者之间的耦合度很低。 Crawler和Searcher两部分尽量分开的目的主要是为了使两部分可以分布式配置在硬件平台上,例如将Crawle原创 2007-01-27 12:26:00 · 1547 阅读 · 0 评论