js逆向——origin/refer请求头反爬

今日受害网站:

https://www.regulations.gov/docket/FDA-2016-D-1399/document

最终目标:爬取该网站中的新闻摘要

首先打开网页,刷新一下,观察都返回了哪些数据

然后我们ctrl+f进行关键字搜索

 

进一步,只过滤含有document接口的请求

 

选择有数据的那个包(4.3KB)

 

右键》 copy as cURL cmd

我们使用python爬虫工具将cURL转为requests

爬虫工具库网址:https://spidertools.cn

 

然后复制生成的测试代码尝试在pycharm当中运行 

结果报错400,请求参数错误

这是因为网页转换的过程中,参数字符串出现了乱码

我们对照网页重新构造params即可

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值