XXL-CRAWLER v1.1.0 发布了

最新推荐文章于 2024-08-15 09:55:24 发布

转载最新推荐文章于 2024-08-15 09:55:24 发布 · 147 阅读

·

0

·

CC 4.0 BY-SA版权

原文链接：https://juejin.im/post/5a02d6ecf265da431f4a7fdd

文章标签：

XXL-CRAWLER是一款面向对象的分布式爬虫框架，支持多线程、异步、动态代理IP等功能，一行代码即可快速搭建分布式爬虫，适用于全站抓取并具备防屏蔽机制。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

版本 V1.1.0，新特性[2017-18-06]

1、页面默认cssQuery调整为html标签；
2、升级Jsoup至1.11.1版本；
3、修复PageVO注解失效的问题；
4、属性注解参数attributeKey调整为selectVal；
5、代理IP：对抗反采集策略规则WAF；
6、动态代理：支持运行时动态调整代理池，以及自定义代理池路由策略；

简介

XXL-CRAWLER 是一个灵活高效、面向对象的分布式爬虫框架。一行代码开发一个分布式爬虫，拥有"多线程、异步、IP动态代理"等特性；

特性

1、面向对象：通过VO对象描述页面信息，提供注解方便的映射页面数据，爬取结果主动封装Java对象返回；
2、多线程；
3、扩散全站：将会以现有URL为起点扩散爬取整站；
4、去重：防止重复爬取；
5、URL白名单：支持设置页面白名单正则，过滤URL；
6、异步：支持同步、异步两种方式运行；
7、自定义请求信息，如：请求参数、Cookie、userAgent等；
8、轻量级：底层实现仅依赖jsoup，简洁高效；
9、超时控制：支持设置爬虫请求的超时时间；
10、主动停顿：爬虫线程处理完页面之后进行主动停顿，避免过于频繁被拦截；
11、单个页面支持抽取一个或多个PageVO；
12、代理IP：对抗反采集策略规则WAF；
13、动态代理：支持运行时动态调整代理池，以及自定义代理池路由策略；

文档地址

中文文档

源码仓库地址

源码仓库地址	Release Download
github.com/xuxueli/xxl…	Download
gitee.com/xuxueli0323…	Download

技术交流

社区交流

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。