- 分布式爬虫:Nutch,主要依赖Hadoop,存储于Mysql,Hbase,Hdfs等。
- 单机爬虫:Crawler4j、WebMagic、WebCollector
- WebMagic ,若分布式,需要集成插件webmagic-extension,通过redis来存储URL。
webmagic的使用文档:
本文探讨了分布式网络爬虫的技术选型,包括基于Nutch的解决方案,它依赖Hadoop,数据存储在Mysql、Hbase和Hdfs。另外,提到了单机爬虫如Crawler4j、WebMagic和WebCollector。特别是WebMagic,如果要实现分布式,可以通过集成webmagic-extension插件并利用redis来管理URL。提供了WebMagic的使用和设计文档链接,帮助读者了解如何开发Java爬虫。
webmagic的使用文档:
2481

被折叠的 条评论
为什么被折叠?