1、建立urls目录并添加163文件
2、编辑conf/crawl-urlfilter.txt文件,设定要抓取的网址信息
3、编辑conf/nutch-site.xml文件,增加代理的属性,并编辑相应的属性值
4、配置tomcat的搜索目录
5、中文乱码
nutch对中文的支持还不完善,需要修改tomcat文件夹下conf/server.xml文件
6、执行抓取命令
1、建立urls目录并添加163文件
2、编辑conf/crawl-urlfilter.txt文件,设定要抓取的网址信息
3、编辑conf/nutch-site.xml文件,增加代理的属性,并编辑相应的属性值
4、配置tomcat的搜索目录
5、中文乱码
nutch对中文的支持还不完善,需要修改tomcat文件夹下conf/server.xml文件
6、执行抓取命令