注:基于网上收集到的信息,未经代码试验过。
| 名称 | 分类 | 优点 | 缺点 | Git 评价 |
| Apache Nutch | 搜索引擎 | 分布式(依赖hadoop),为搜索引擎设计 | 重量级,用于精抽取会低效,Nutch插件调试困难 | 老大级 |
| Spiderman | 爬虫 | 微内核+插件式架构,重配置(无需写代码),多线程 | 用户太少 | star 525 | fork 326 |
| webmagic | 爬虫 | 使用了HttpClient,支持多线程抓取,分布式抓取 | JS动态加载要使用如PhantomJS、Selenium,用户太少 | 荐,star 406 | fork 225 |
| WebCollector 2 | 爬虫 | 可用于分页及AJAX的遍历策略,集 |

本文探讨了Java领域的爬虫工具和开源API,虽然未经过实际代码验证,但提供了相关工具的对比信息,包括其特点和适用场景。
最低0.47元/天 解锁文章
2453

被折叠的 条评论
为什么被折叠?



