1. 爬取前的分析
mitmdump是mitmproxy的命令行接口,比Fiddler、Charles等工具方便的地方是它可以对接Python脚本。
有了它我们可以不用手动截获和分析HTTP请求和响应,只需写好请求和响应的处理逻辑即可。
它还可以实现数据的解析、存储等工作,这些过程都可以通过Python实现。
1.1 启动mitmdump 保存到文件
使用命令
mitmdump -w crawl.txt
其中 crawl.txt 可以为任意文件名,就可以保存相应的结果了
1.2 调用脚本文件
mitmdump -s script.py
script.py 文件中编写如下代码
# 修改UA
def request(flow)<
本文是一篇Python爬虫入门教程,介绍如何使用mitmdump工具抓取手机惠农APP的数据。首先分析爬取需求,启动mitmdump并保存结果到文件。接着讲解如何调用脚本捕获APP请求,并完善处理逻辑。通过mitmweb观察并捕获特定URL,数据成功入库到MongoDB。最后提到mitmdump的日志功能和调试技巧,以及未来将实现自动操作。
订阅专栏 解锁全文
2万+





