一步完成从捉取到健索引:
bin/nutch crawl urls -dir crawl_data depth 3 -topN5
注入:
bin/nutch inject crawl/crawldb urls
生成捉取列表:
bin/nutch generate crawl/crawldb crawl/segments
读取crawl下的crawldb目录 生成捉取列表到 segments对应时间标签目录下的crawl_generate
开始捉取去网页:
bin/nutch fetch crawl/segments/时间戳目录
并把结果存到 crawl/segments/时间戳目录/crawl_fetch
解析parse :
bin/nutch parse crawl/segments/时间戳目录
完成上面的命令后,根据 crawl/segments/时间戳目录的结果,更新crawl/crawldb中的信息
bin/nutch updatedb crawl/crawldb crawl/segments/时间戳目录
完成一次捉取。