在前一篇博文中有对nutch爬虫的抓取周期做一个说明,主要分为5步:
1.inject—>2.generate—>3.fetch—>4.parse—>5.update
架构图如下:
本次我们就对nutch爬虫的一个抓取周期中的每一步进行详细的说明。
一、注入
注入使用的命令为:inject
参数如下:
包含两个参数:
- crawldb:crawldb目录路径
- url_dir:抓取的url的路径
执行如下命令:
bin/nutch inject data/crawldb urls
结果如下:
因为在urls目录下面有两个文本文件:url.txt和url2.txt,所以从执行结果可以看出有2个url被注入:
根据我们上一篇博文中介绍的方法来从craw