十八、不会fiddler抓包,谈何爬虫

本文详细介绍了如何使用Fiddler进行HTTP抓包,包括HTTP原理、Fiddler的设置与使用,以及如何配置Fiddler进行HTTPS抓包。内容涵盖了设置全局与指定断点、过滤和搜索请求、解析请求与响应详情,以及在移动设备上抓包的步骤。通过Fiddler,可以方便地调试和分析网络请求。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

@Author :Runsen

http原理


所谓的http代理,其实就是代理客户机的http访问,主要代理浏览器访问页面。
代理服务器是介于浏览器和web服务器之间的一台服务器,有了它之后,浏览器不是直接到Web服务器去取回网页而是向代理服务器发出请求,Request信号会先送到代理服务器,由代理服务器来取回浏览器所需要的信息并传送给你的浏览器。

fiddler的使用

抓包工具抓取HTTPS的包的时候跟HTTP的直接转发是不同的。所以我们需要配置HTTPS的证书。

打开后选择HTTPS,勾选上这个选项,然后勾选上下方出现的两个选项。最后再将弹出的窗口都选择yes

设置

  • Capture HTTPS CONNECTs 捕捉HTTPS连接
  • Decrypt HTTP
根据Fiddler抓包请求构造爬虫可以分为以下几个步骤: 1. 安装Fiddler并开启代理功能。在电脑上安装Fiddler,并在设置中开启代理功能,确保所有HTTPHTTPS流量都通过Fiddler进行代理。 2. 使用浏览器访问目标网站。在浏览器中访问你要爬取的目标网站,并浏览到你要获取数据的页面。同时,Fiddler会捕捉到所有的请求和响应数据。 3. 分析抓包数据。打开Fiddler的会话列表,找到对应目标网站的请求记录。通过查看请求头和响应内容,了解请求的URL、请求方法、参数、Cookie信息等。还可以在Raw选项卡中查看请求和响应的原始数据。 4. 构造爬虫请求。根据分析的抓包数据,确定需要模拟的请求信息。例如,确定请求的URL、请求方法、请求参数等。使用编程语言(如Python)发送HTTP请求,将抓包数据中的请求头和请求体(如果有)添加到爬虫请求中。 5. 解析响应数据。发送请求后,获取到响应数据。根据抓包数据分析响应的格式(如JSON、HTML等),使用相应的解析方法将响应内容解析为可用的数据格式,如字典、列表等。 6. 处理Cookie和登录状态。如果目标网站需要登录才能获取数据,可以通过查看抓包数据中的Cookie信息,将其添加到爬虫请求的请求头中。同时,需要处理登录操作,确保爬虫在每次请求时都以登录状态进行访问。 需要注意的是,爬虫的使用必须遵守法律和网站的使用规则。在编写爬虫时,应尊重网站的robots.txt文件,避免对网站造成过大的负担,并避免未经授权地使用和传播爬取到的数据。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

小刘要努力。

顺便点一个赞

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值