爬虫——爬虫通用模块

一:寻找post地址

        1.1寻找登录的post地址

                1.在form表单中中寻找action对应的url地址:post的数据是input标签中name的值作为键,真正的用户名密码作为值的字典,post的url地址就是action对应的url地址

                2.抓包,寻找登录的url地址:勾选perserve log按钮,防止页面跳转找不到url;寻找post地址,确定参数:参数不会变的情况,直接用,比如密码不是动态加密的时候;参数会变的情况:参数在当前响应中,通过json生成

2.1:定位想要的json

        选择会触发时间的按钮,点击event listener,找到js的位置;通过chrome中的serch all file来搜索url关键字;添加断点的方式来查看js操作,通过python来进行同样的操作

二:requests的小技巧

        1.requests.util.dict_from_cookiejar 把cookie对象转化成字典

        

 

 

        2.通过SSL证书验证

                response = requests.get('https://www.12306.cn/mormhweb',verify=False)

                

 

        3.设置超时

                response  =requests.get(url.timeout=10)

        4.配合状态码判断是否请求成功

                assert response.status_code==200

        

三:安装第三方模块方法

        pip install retrying

        下载源码解码,进入解压后的目录   python setup.py install

        '***whl' 安装方法 'pip install ***.whl' 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值