JAVA爬虫WebCollector 2.x入门教程——基本概念
WebCollector是一个无须配置、便于二次开发的JAVA爬虫框架(内核),它提供精简的的API,只需少量代码即可实现一个功能强大的爬虫。WebCollector-Hadoop是WebCollector的Hadoop版本,支持分布式爬取。
目前WebCollector在Github上维护:https://github.com/CrawlScript/WebCollector
中文教程地址:http://datahref.com/book/
转载
2015-12-25 10:55:41 ·
1405 阅读 ·
0 评论