【Python爬虫】反爬虫问题

最新推荐文章于 2023-11-17 10:59:12 发布

镰刀韭菜

最新推荐文章于 2023-11-17 10:59:12 发布

阅读量634

点赞数

CC 4.0 BY-SA版权

分类专栏：深度学习与机器学习文章标签：反爬虫爬虫 Python 代理 IP池

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/ARPOSPF/article/details/95532984

深度学习与机器学习专栏收录该内容

103 篇文章 ¥29.90 ¥99.00

订阅专栏

超级会员免费看

本文探讨了Python爬虫为何会遇到反爬虫问题，包括网站流量浪费和数据保护等原因。列举了常见的反爬虫手段，如不返回网页、返回非目标网页和增加数据获取难度。同时，提出了应对反爬虫的策略，如修改请求头、调整爬虫间隔时间和利用代理IP。建议使用真实的User-Agent，建立User-Agent池，设置合理的访问间隔，并维护代理IP池以提高爬虫的生存能力。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

反爬虫问题

反爬虫：就是用任何技术手段阻止批量获取网站信息的一种方式

1.为什么会被反爬虫？

网站爬虫浪费网站的流量
数据是每家公司的宝贵资源

2.反爬虫的方式有哪些？

不返回网页，如不返回内容和延迟网页返回时间
返回数据非目标网页，如返回错误页、空白页和爬取多页时均返回同一页
增加获取数据的难度，如登录才能查看和登录时设置验证码

2.1不返回网页

首先，网站会通过IP访问量反爬虫，其次，网站会通过session访问量反爬虫。此外，网站也会通过User-Agent反爬虫。User-Agent表示浏览器在发送请求时，附带当前浏览器和当前系统环境的参数给服务器。

当使用requests库进行爬虫的时候，默认的User-Agent为python/requests/version。

2.2返回非目标网页

返回非目标网页，也就是网站会返回假数据

2.3获取数据变难

一般登录才可以查看数据，而且会设置验证码。

3.如何“反反爬虫”？

中心思想就是让爬虫程序看起来更像正常用户的浏览行为。

3.1修改请求头

最简单的方法需要把请求头改成真正浏览器的格式。

也可以做一个User-Agen

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

镰刀韭菜 看在我不断努力的份上，支持我吧

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。