scrapy 爬虫之521状态码解决方案

破解反爬虫之Cookie策略

最新推荐文章于 2025-04-13 07:30:00 发布

原创最新推荐文章于 2025-04-13 07:30:00 发布 · 2.7k 阅读

2 ·

CC 4.0 BY-SA版权

others 专栏收录该内容

24 篇文章

订阅专栏

本文介绍了一种破解特定网站反爬虫技术的方法，通过直接复制和处理浏览器中的Cookies信息，结合两次网页请求策略，获取网站的真实数据。首次请求获取并处理JS脚本，提取__jsluid_h和__jsl_clearance等Cookies，整理后再发起请求以绕过状态码521的限制。

方案一直接复制cookie

浏览器中直接复制cookies的键值信息，cookies不是按字符串处理哟
注意：
1。Scrapy的cookies要保存成字典格式，键值对要挨着处理；
2。Scrapy headers添加的UA信息要用浏览器的UA，因为cookies基于ua生成的

方案二代码两次网页请求

状态码521是一种反爬虫技术，浏览器会自动渲染很多东西，代码爬数据会漏掉浏览器渲染的信息，
所以会失败
流程是：
1。第一次请求会获取script脚本，提取里面的js脚本，然后，（代码处理自己网上搜）手动在浏览器console里面执行，会获取到另外的一个js脚本，看起来非常多，一字不落的复制下来；顺便再获取，第一次请求的cookie只有__jsluid_h
2。修改复制的内容，提取出document.cookie那部分内容，然后将eval改成console.log，最后将改好的代码在console里面再执行一遍，这样就能得到另外的一部分cookie信息__jsl_clearance的信息
3。将__jsluid_h和__jsl_clearance整理成新的cookie再次请求，就能得到真实数据了。

疑惑

cookie其他的信息很难获取 比如Hm_lpvt_xxx、Hm_lvt_xxxxxxx，希望知道方法的你留个言 感激不尽

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

明天,今天,此时

关注关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
5
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

Scrapy遇到http状态码521：Crawled (521)的解决方案

Dzboy

07-20

2482

大家好，我是专职Android研发，有14年研发经验，其中Android研发经验已经有10年。曾任职上市公司，有车机导航、机器人等行业及研发经验，热衷于技术和研发。除Android专业外，也研究并使用Python、PHP、JavaScript、前端、中间件、数据库等技术。目前开始通过博客对自己的知识和经验进行归纳和总结，由于工作较忙，不定期去更新博客。希望本博客的内容能够真正帮助到一些同学。

Python爬虫打印状态码为521，返回数据为乱码？

m0_74972727的博客

03-09

828

注意：如何已添加cookie，出现断网情况，需要重新获取cookie。

5 条评论您还未登录，请先登录后发表或查看评论

Scrapy反爬虫之521异常

u011414629的专栏

12-22

1888

引子最近在爬取一个网站时, 遇到了521错误, 这是一种网站的反爬技术, 浏览器会渲染很多东西,代码爬数据会漏掉浏览器渲染的信息思路可以尝试复制浏览器的cookie信息, 加在请求头中, 但是这样只能获取单个域名的网页。恰巧我需要爬取的网站下面有多个二级域名的网页(二级域名网页的链接可以通过一级域名获取), 复制每个二级域名的cookie来爬取每个二级域名的网页是不太可能的进一步...

爬虫521应对

qq_42636010的博客

06-28

1059

要做一个动态ip池，结果爬ip地址的时候遇到一个网站返回521 百度后根据前人的经验得知这种网站是有两次请求，第一次请求返回一个cookie（这时候状态是521），然后第二次请求带着这个cookie请求就会又得到一个cookie，这个cookie可以用第一次请求返回的js代码获得，用这两个cookie同时请求才能获得正确的response。而且两次请求的User-Agent一定要一样所以要设置he...

爬虫回响521_现在用scrapy爬一个网站始终遇到521错误，是怎么回事呢？

weixin_29571873的博客

01-12

511

朋友我最近也在爬这个网站，给你点意见你可以看看吧。愿意交流下的话加下我的好友吧。cnvd正常的情况都可以爬的到。www.cnvd.org.cn这个东西就比较恶心了，很多的头都反521。# -*- coding:utf-8 -*-#coding = utf-8import urllibimport urllib2import reimport randomimport socketimport My...

爬虫521错误(又是一次和可爱的前端vs的故事)

weixin_30577801的博客

05-27

715

起因: 　　今天突然想重构一下代理池,并且想扩充一下代理,所以就想着爬点代理IP,然后就有了下面的故事一上来先进行了一顿操作: def get_xxdaili(url): headers = { 'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like ...

Scrapy 爬虫异常处理的解决方案

LYFYSZ123的博客

02-10

1267

Scrapy 爬虫异常处理是一个重要的环节，可以通过使用 try-except 语句块、中间件、errback 回调函数等方法来捕获和处理异常。遵循及时捕获和记录异常信息、合理设计重试机制、良好的日志记录等基本原则，可以有效提高爬虫的稳定性和健壮性。

Scrapy 爬虫异常处理的实践指南

LYFYSZ123的博客

02-10

947

【愚公系列】《Python网络爬虫从入门到精通》049-了解Scrapy爬虫框架

最新发布

时光隧道

04-13

3万+

大家好，欢迎来到《Python网络爬虫从入门到精通》系列教程的第48篇文章。经过前面几十篇的学习，我们已经掌握了使用 requests、BeautifulSoup、Selenium 等工具进行数据抓取的基本方法。然而，随着项目的复杂度提升，这些工具在面对大型、高并发、高可维护性的爬虫任务时，往往力不从心。这时候，专业的爬虫框架——Scrapy，就该登场了。Scrapy 是一个由 Python 编写的、功能强大的异步爬虫框架，它具备高性能、模块化、易扩展等诸多优点，被广泛应用于各种数据采集任务中。

爬虫回响521_爬虫遇到521错误怎么办

weixin_39929813的博客

12-20

639

scrapy-使用

iFan 的博客

03-12

1309

该文章涉及方面比较多，后面会将该文章拆开，每个方面都会进行详细的说明和使用，但是该文件的内容不变。 Scrapy 爬虫框架的使用手册基础介绍安装 pip install Twisted-18.9.0-cp36-cp36m-win_amd64.whl pip install Scrapy 错误 ModuleNotFoundError: No module named ‘win32api’ ...

响应码521与国家企业信用信息公示系统js解析

fengxueersui的博客

07-19

3195

所谓的521是网络在请求是返回的状态码为521，并且反回一段js，js执行后会生成一段cookie，携带cookie再次向服务器发送请求，才可以请求成功，而且ip和cookie绑定，切换ip需要重新获取cookie 原理还是比较简单的，难度在于js的执行，如果使用selenium这个问题还是比较容易处理，但是爬虫讲究的是速度和高效，本文深度剖析一下521中返回的js具体执行过程以国家企业信用...

JSL（加速乐）反爬跳过

编程探索与数字构建 | Python与Java之旅

07-12

879

JSL（加速乐）反爬跳过

[爬虫]请求返回521解决方法

PersonNotFound的博客

02-05

1万+

我需要抓取的网站是国家企业信用信息公示系统，但是该网站有反爬虫，一般的url下载方法并不适用，下面是我通过查资料后总结的一个可行的方法。首先，要通过url和Cookie还有User-Agent去请求一次目标网址，第一次的cookie可以通过浏览器来获取，cookie主要是需要__jsluid和__jsl_clearance。请求后返回状态为521，返回内容是一串加密后的javasc

使用scrapy做爬虫遇到的一些坑：网站常用的反爬虫策略，如何机智的躲过反爬虫Crawled (403)

weixin_41931602的博客

06-13

2万+

在这幅图中我们可以很清晰地看到爬虫与反爬虫是如何进行斗智斗勇的。在学习使用爬虫时，我们制作出来的爬虫往往是在“裸奔”，非常的简单。简单低级的爬虫有一个很大的优点：速度快，伪装度低。如果你爬取的网站没有反爬机制，爬虫们可以非常简单粗暴地快速抓取大量数据，但是这样往往就导致一个问题，因为请求过多，很容易造成服务器过载，不能正常工作。于是许多网站为了保护自己的服务器，往往会采用反爬虫技术来“狙击”爬虫，...

521反爬虫解决方法之java篇

路人甲的博客

06-20

1万+

java 爬虫 521 解决方法

scrapy 爬虫之521状态码解决方案

方案一 直接复制cookie

方案二 代码两次网页请求

疑惑

方案一直接复制cookie

方案二代码两次网页请求