爬虫心得——关于我踩坑并在坑里摸爬滚打的二三事

  1. cookie不会凭空出现,也不会凭空消失
    如果你在某个请求池里发现一个突然出现的cookie:要么是一个未被发现的接口,要么是某个js在生成cookie

  2. fiddler的Autoresponse并不总是有效,若网站配置了CORS(跨域资源共享),则需要修改fiddler的CustomRules.js
    在static function OnBeforeResponse(oSession: Session) 模块下增加

    	if(oSession.uriContains("要处理的url")){
    	   oSession.oResponse["Access-Control-Allow-Origin"] =  "允许的域名";
    	    oSession.oResponse["Access-Control-Allow-Credentials"] = true;
    	}
    

    参考:fiddler模拟mock – 解决跨域访问(CORS)跨域资源共享 CORS 详解

  3. 请仔细检查自己的请求逻辑,有时候参数都对但请求不通,可能就是参数的处理顺序不对

  4. 有些app内的数据接口可以通过分享链接转成pc端的接口,有可能大大降低爬取难度

  5. 有的重定向会在第一次请求时生成cookies,使用allow_redirects=False让requests的请求不会自动跟进重定向

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值