三,nutch 1.0 爬虫配置与运行

最新推荐文章于 2021-02-15 22:54:05 发布

最新推荐文章于 2021-02-15 22:54:05 发布 · 154 阅读

文章标签：

#Google

nutch 1.0专题专栏收录该内容

4 篇文章

订阅专栏

本文为solomon@javaeye原创,如有转载,注明出处(作者solomon与链接[url]http://zolomon.iteye.com[/url]).
本专题使用中文分词为ikanalyzer,感谢其作者为java中文事业做出的巨大贡献.
我的个人资料[url]http://www.google.com/profiles/solomon.royarr[/url]

在解压出来的目录下的bin目录里建立urls文件夹,
在里面创建url.txt,内容为http://www.17173.com
这里为要抓取的入口路径,可以设置多个值,也可以放置多个txt文件
然后在cygwin里面进入这个bin目录,
输入./nutch crawl urls -dir file:///d:/solomoncrawl -depth 3
这样就可以看到开始抓取了.
[img]http://www.iteye.com/upload/attachment/97010/bc3c1af8-ef3d-3772-86d0-93dba276f818.gif[/img]
[img]http://www.iteye.com/upload/attachment/97012/d6166120-7dc3-3a85-8535-7e3eea866a6c.gif[/img]
[img]http://www.iteye.com/upload/attachment/97014/d89257c9-0365-3558-ac7d-782d1710aacb.gif[/img]
nutch是一个批处理文件,后面跟的命令和参数告诉它该如何运行.
crawl urls是告诉nutch爬虫要crawl一个目录里的url,这个目录的名字是urls.
nutch爬虫有很多行为,crawl是其中一个主要行为.
-dir参数告诉它该把抓取来的东西放在什么地方,指定了一个d盘下叫solomoncrawl的目录.
-depth参数告诉它该抓取的深度,从入口url开始扩展多少层.
抓取完毕会有一个报告,我这次抓的东西比较少,所以没看出来.
[img]http://www.iteye.com/upload/attachment/97046/ae01f778-4081-3acf-b6f5-4eaef176f773.gif[/img]