XXL-CRAWLER v1.3.0，分布式爬虫框架

许雪里

于 2022-10-16 02:19:09 发布

阅读量634

点赞数

分类专栏：许雪里的专栏文章标签：爬虫分布式 python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/xuxueli0323/article/details/127343347

版权

XXL-CRAWLER是一个分布式爬虫框架，新版本v1.3.0调整了开源协议为Apache2.0，升级了依赖，并优化了代码结构。该框架具有简洁的API，支持多线程、异步、IP动态代理、JS渲染等功能，并可通过扩展实现分布式和JS渲染。此外，还包括失败重试、代理IP管理、动态参数调整等多个实用特性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Release Notes

1、开源协议：由 GPLv3 调整为 Apache2.0 开源协议；
2、版本升级：依赖版本升级，如jsoup、htmlunit、selenium等;
3、代码重构：优化代码结构，提升系统可维护性；

简介

XXL-CRAWLER 是一个分布式爬虫框架。一行代码开发一个分布式爬虫，拥有"多线程、异步、IP动态代理、分布式、JS渲染"等特性；

输入图片说明

特性

1、简洁：API直观简洁，可快速上手；
2、轻量级：底层实现仅强依赖jsoup，简洁高效；
3、模块化：模块化的结构设计，可轻松扩展
4、面向对象：支持通过注解，方便的映射页面数据到PageVO对象，底层自动完成PageVO对象的数据抽取和封装返回；单个页面支持抽取一个或多个PageVO
5、多线程：线程池方式运行，提高采集效率；
6、分布式支持：通过扩展 “RunData” 模块，并结合Redis或DB共享运行数据可实现分布式。默认提供LocalRunData单机版爬虫。
7、JS渲染：通过扩展 “PageLoader” 模块，支持采集JS动态渲染数据。原生提供 Jsoup(非JS渲染，速度更快

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。