爬虫评估记录

最新推荐文章于 2025-08-31 10:22:19 发布

原创最新推荐文章于 2025-08-31 10:22:19 发布 · 7.8k 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#爬虫

其他专栏收录该内容

7 篇文章

订阅专栏

有项目要用到爬虫，自己写不现实，所以花费了几天的时间了解了一些爬虫的现状，做个记录，最后用了WebCollector，还不错，挺好用的

1、神箭手云爬虫：https://www.oschina.net/p/crawler-samples

特定：傻瓜化，抓取在平台上面，有的收钱，微信、微博都有现成代码

2、WebCollector
1）自定义遍历策略，可完成更为复杂的遍历业务，例如分页、AJAX
2）可以为每个URL设置附加信息(MetaData)，利用附加信息可以完成很多复杂业务，例如深度获取、锚文本获取、引用页面获取、POST参数传递、增量更新等。
3）使用插件机制，WebCollector内置两套插件。
4）内置一套基于内存的插件（RamCrawler)，不依赖文件系统或数据库，适合一次性爬取，例如实时爬取搜索引擎。
5）内置一套基于Berkeley DB（BreadthCrawler)的插件：适合处理长期和大量级的任务，并具有断点爬取功能，不会因为宕机、关闭导致数据丢失。
6）集成selenium，可以对javascript生成信息进行抽取
7）可轻松自定义http请求，并内置多代理随机切换功能。可通过定义http请求实现模拟登录。
8）使用slf4j作为日志门面，可对接多种日志

特定：可以设置代理那些，

3、webmagic
特定:偏向于垂直抓取，可能比较好用，有教程，不过还不是很完善，在建设中，它包含了下载、调度、持久化、处理页面等模块。每一个模块你都可以自己去实现，也可以选择它已经帮你实现好的方案。这就有了很强的定制性。

4、基于Nutch&Solr定向采集解析和索引搜索的整合
特定：基于Nutch，偏向于搜索引擎，在建设，具体还要看情况

5、Heritrix
特定：使用的人比较多，功能齐全，文档完整，网上的资料也多。有自己的web管理控制台，包含了一个HTTP 服务器。操作者可以通过选择Crawler命令来操作控制台，没有用过，不知道