Nutch源代码浅析(一)(概述)

1. Nutch 介绍

由两个部分组成: Crawling Searching Crawling 部分负责抓取网页和建立索引,而 Searching 则是将 Crawling 过程中建立的 index segments 根据用户的搜索请求返回结果。
本文分析的是 apache-nutch-1.2
2. Nutch的主流程
bin/ 目录下有一个 nutch 的脚本,这个脚本将被安装到安装目录的 bin 目录下,大体作用根据本脚本的路径得到 nutch 的安装目录(其中考虑到了 nutch soft link 的情况),而后 JRE 的堆栈大小,还有 classpath 信息。 最关键的代码如下:
此段代码则从该脚本进入了 java 代码。我们来看看 crawl 是如何工作的。 打开 src/java/org/apache/nutch/crawl/Crawl.java Crawl main 函数如下: 命令行解析传递进来的参数,可以看到rootUrlDir的处理比较特殊,因为其他参数都是配对出现(例如-dir后面紧跟着的是指明的文件夹路径),而rootUrlDir则是最后落单的那个参数。
 
下面就开始进入正题了:
  1. 首先调用Injector的inject函数将rootUrlDir目录下的所有文件中的网址注入到crawlDb数据库。
  2. 根据指定的抓取深度,循环做以下三件事:
    • 调用Generator的generate函数,产生URL的fetchlist,并放在一个或者多个segments中。
    • 调用Fetcher的fetch函数,获取segs[0]所制定的segement,并Parsing,parsing操作可以是集成在了fetch这一步,也可以是单独下一步来做。这儿值得注意的是,只取了第一个seg,而数组中有可能有多个seg,没有fetch。
    • 调用CrawlDb的update函数,将segments中的fetch和parsing的数据合并到数据库(crawlDb)中。这里取的是segs数组,我觉得这儿可能是有问题的。
  3. 建立并合并索引。

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值