爬虫针对"动态生成reqid"的处理
问题描述:
爬取百度信息流数据时, 需爬接口传参带动态生成的reqid, 这时代码该如何处理?

处理方式:
试着用postman调用该接口, 神奇的事情发生了, 不传这个参数也是可以的!!!
所以,
在代码爬取时, 直接忽略该参数就ok啦~~~
解决方案灵感来自于: https://cloud.tencent.com/developer/article/1874637

post接口如何传参x-www-form-urlencoded
还是上面那个接口, 以往没爬过x-www-form-urlencoded类型传参, 所以记录一下:
# application/x-www-form-urlencoded 形式传参
params = {"levelCond": {"userid": "xxx"},
"startTime": start_time,
"endTime": end_time,
"fields": ["planid", ..., "cost"],
"pageNo": page_index,
"pageSize": 50,
"filters": [],
"dateType": 0}
data = {
"userid": "xxx",
"token": token,
"path": "carinae/GET/xxx",
"params": json.dumps(params)}
data = parse.urlencode(data)
res = requests.post(url=xxx, headers=xxx, data=data)
灵异事件之—get接口一直获取不到全部数据
很简单的问题但排查了很久, 仔细对比网站接口发现从followUp开始往后需要encode一下...

后面遇到问题会持续更新到这篇文章 ^^