1.什么是Nutch
Nutch 是一个开源Java 实现的搜索引擎,你可以在这里找到它:nutch.apache.org。
Nutch可分为爬虫(crawler)和查询(searcher)。Crawler主要用于从网络上抓取网页并为这些网页建立索引。Searcher主要利用这些索引检索用户的查找关键词来产生查找结果。两者之间的接口是索引,所以除去索引部分,两者之间的耦合度很低。
Crawler和Searcher两部分尽量分开的目的主要是为了使两部分可以分布式配置在硬件平台上,例如将Crawler和Searcher分别放在两个主机上,这样可以提升性能。
你知道吗?
a. 通过nutch,诞生了hadoop、tika、gora。
b. nutch通过ivy来进行依赖管理(1.2之后)。
c. nutch是使用svn进行源代码管理的。
d. lucene、nutch、hadoop,在搜索界相当有名。

本文是Nutch入门教程,详细介绍了Nutch的基本概念、结构及安装步骤。Nutch是一个开源搜索引擎项目,与Hadoop、Lucene等紧密相关。通过Nutch的ant构建,生成runtime文件夹,包含部署和本地运行方式。在安装过程中,需通过svn获取源码,ant构建,设置爬虫网址和agent,最后执行爬虫任务并检查日志,确保无误。
最低0.47元/天 解锁文章
6040

被折叠的 条评论
为什么被折叠?



