python爬虫请求网页时遇到问题
请求,如果对方有一定策略的反爬虫,那需要反反爬虫。比如:
header带上host,带上refer,带上其他;
需要验证,那就申请用户名和密码,然后登陆;
如果在登录时期有防跨站机制,那就先获取一次登录页面,然后解析出token,带上对应的token然后登陆;
在程序中加入Log,并且存到本地。防止出现各种各样的反爬虫机制ban掉了程序,从而方便进行下一步防反爬虫对策。
本文介绍了在使用Python爬虫请求网页时如何应对反爬虫策略,包括设置合适的headers、使用登录验证、处理登录过程中的防跨站机制以及记录日志等方法。
请求,如果对方有一定策略的反爬虫,那需要反反爬虫。比如:
header带上host,带上refer,带上其他;
需要验证,那就申请用户名和密码,然后登陆;
如果在登录时期有防跨站机制,那就先获取一次登录页面,然后解析出token,带上对应的token然后登陆;
在程序中加入Log,并且存到本地。防止出现各种各样的反爬虫机制ban掉了程序,从而方便进行下一步防反爬虫对策。
您可能感兴趣的与本文相关的镜像
Python3.10
Python 是一种高级、解释型、通用的编程语言,以其简洁易读的语法而闻名,适用于广泛的应用,包括Web开发、数据分析、人工智能和自动化脚本
2101

被折叠的 条评论
为什么被折叠?