python实现http拦截
前言:为什么要使用http拦截
大多数爬虫玩家会直接选择API请求数据,但是有的网站需要解决扫码登录、Cookie校验、数字签名等,这种方法实现时间长,难度高。需求里面不需要高并发,有没有比较亲民的方法呢,答案是有的!
一、技术调研
通过百度搜索python实现http拦截,发现方法有很多,有使用抓包软件、有使用中间人…基本都需要安装证书、设置代理,操作起来非常麻烦,小白很有可能在配置环境的时候就放弃选择了。

二、技术选择
- Seleunim:实现请求拦截需要配合使用浏览器扩展工具,需要指定webdirve版本,还是比较麻烦。
- Mitmproxy:实现拦截请求,需要安装证书、设置代理非常麻烦,直接放弃。
- 抓包软件:需要安装抓包软件进行抓包转发,对用户体验不好。
- Playwright:只需要安装官方谷歌浏览器,可以轻松实现http、websocket拦截。
最终采用的方案为
本文探讨了在遇到复杂登录验证场景时,如何通过HTTP拦截来简化爬虫工作。介绍了技术调研过程,包括Seleunim、Mitmproxy和抓包软件的不便,最后推荐了Playwright,因其只需安装官方浏览器即可轻松实现HTTP和WebSocket拦截。
订阅专栏 解锁全文
716

被折叠的 条评论
为什么被折叠?



