今日受害网站:
https://www.regulations.gov/docket/FDA-2016-D-1399/document
最终目标:爬取该网站中的新闻摘要
首先打开网页,刷新一下,观察都返回了哪些数据
然后我们ctrl+f进行关键字搜索
进一步,只过滤含有document接口的请求
选择有数据的那个包(4.3KB)
右键》 copy as cURL cmd
我们使用python爬虫工具将cURL转为requests
爬虫工具库网址:https://spidertools.cn
然后复制生成的测试代码尝试在pycharm当中运行
结果报错400,请求参数错误
这是因为网页转换的过程中,参数字符串出现了乱码
我们对照网页重新构造params即可