scrapy项目＞代理＞验证码问题

阿泽Az

于 2022-05-20 01:36:19 发布

阅读量1.1k

点赞数

CC 4.0 BY-SA版权

文章标签： python 爬虫开发语言

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/az123qq_/article/details/124875518

本文讨论了使用Scrapy框架进行爬虫开发时遇到的反爬虫措施，包括通过伪造headers、IP代理池、模拟用户行为、处理动态页面和验证码识别。在面对验证码时，介绍了使用打码平台和Selenium等工具。同时，文章解释了为何使用Scrapy，如其高并发特性、任务管理界面以及代码简洁，但也指出了其可扩展性不足的问题。对于代理的使用，阐述了如何避免IP被禁止，以及代理失效时的处理方法。最后，详细说明了登录和爬取过程中验证码的处理策略，包括图片和滑动验证码的解决方案。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一，项目问题：

1、你写爬虫的时候都遇到过什么反爬虫措施，你最终是怎样解决的
   1，通过headers反爬虫：
               解决策略，伪造headers
   2，基于用户行为反爬虫：
               动态变化去爬取数据，模拟普通用户的行为，使用IP代理池爬取或者降低抓取频率，或通过动态更改代理ip来反爬虫
   3，基于动态页面的反爬虫：
               跟踪服务器发送的ajax请求，模拟ajax请求,selnium和phtamjs
               或使用selenium + phantomjs 进行抓取抓取动态数据，或者找到动态数据加载的json页面。

4，验证码：
使用打码平台识别验证码

   5，数据加密：
               对部分数据进行加密的，可以使用selenium进行截图，
               使用

最低0.47元/天解锁文章

200万优质内容无限畅学

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。