1.选中nutch所在eclipse中的工程,新建一个文件夹urls
2.选中urls文件夹,新建urls.txt(存放url,crawl的起点)。写入url
3.修改nutch/conf中的nutch-site.xml。如下
4.修改nutch/conf 中的regex-urlfilter.txt (url 的过滤规则,自己修改)
5.选中nutch工程,右击run as -> run configurations,双击java application,新建一个,Name随意写,关键是下面的main class要正确
6.点击上面的arguments,如下修改
7.点击run,效果
8.爬取成功,如果要读取爬取的信息则可以
run as -> run configurations 新建java appication,如下操作
结果如下