1. Nutch 介绍
由两个部分组成:
Crawling
和
Searching
,
Crawling
部分负责抓取网页和建立索引,而
Searching
则是将
Crawling
过程中建立的
index
和
segments
根据用户的搜索请求返回结果。
本文分析的是
apache-nutch-1.2
。
2. Nutch的主流程
在
bin/
目录下有一个
nutch
的脚本,这个脚本将被安装到安装目录的
bin
目录下,大体作用根据本脚本的路径得到
nutch
的安装目录(其中考虑到了
nutch
是
soft link
的情况),而后
JRE
的堆栈大小,还有
classpath
信息。
最关键的代码如下:
此段代码则从该脚本进入了
java
代码。我们来看看
crawl
是如何工作的。
打开
src/java/org/apache/nutch/crawl/Crawl.java
,
Crawl
的
main
函数如下:
从
命令行解析传递进来的参数,可以看到rootUrlDir的处理比较特殊,因为其他参数都是配对出现(例如-dir后面紧跟着的是指明的文件夹路径),而rootUrlDir则是最后落单的那个参数。
下面就开始进入正题了:
- 首先调用Injector的inject函数将rootUrlDir目录下的所有文件中的网址注入到crawlDb数据库。
- 根据指定的抓取深度,循环做以下三件事:
- 调用Generator的generate函数,产生URL的fetchlist,并放在一个或者多个segments中。
- 调用Fetcher的fetch函数,获取segs[0]所制定的segement,并Parsing,parsing操作可以是集成在了fetch这一步,也可以是单独下一步来做。这儿值得注意的是,只取了第一个seg,而数组中有可能有多个seg,没有fetch。
- 调用CrawlDb的update函数,将segments中的fetch和parsing的数据合并到数据库(crawlDb)中。这里取的是segs数组,我觉得这儿可能是有问题的。
- 建立并合并索引。