
requests
、Lu
这个作者很懒,什么都没留下…
展开
-
requests库爬虫模拟登录的三种方式
方式一. 实例化session,使用session发送post请求进行提交表单数据模拟登录,再利用该session请求登录后才能访问的页面。 注: 必须是同一个session,这也才能保持会话状态。 方式二. 在请求头headers里面添加Cookie键,值为cookie字符串,字符串内容即 在浏览器手动登录完成后F12 查看对应的Cookie字符串。 方式三. 在请求方法里添加cookies参数,字段值为字典形式的Cookie。 注: 方式二和方式三 最大的区别就是,一个是字符串形式,一个是字典形原创 2020-07-13 11:35:35 · 462 阅读 · 0 评论 -
requests库爬虫设置代理ip
1. 代理ip的购买或者免费获取 西刺免费代理IP:http://www.xicidaili.com/ 快代理:http://www.kuaidaili.com/(本人在用,用于测试时只需使用其免费代理即可) 代理云:http://www.dailiyun.com/ 2. 测试网址 http://httpbin.org/ip : 该网址专门用来显示ip等信息,在做代理测试时可以爬取该网址来测试自己是否 设置成功。 3. 代码实现 import requests # 该网址方便...原创 2020-07-02 11:49:30 · 14711 阅读 · 0 评论 -
requests+xpath+json爬取糗事百科
(1) requests:数据爬取,import requests (2) lxml中的xpath:数据解析,from lxml import etree (3) json:数据存储,import json 下面直接上代码: # json + lxml + xpath + requests 爬取 “糗事百科” from lxml import etree import requests import json class QiuShiBK(object): def __init__(sel..原创 2020-07-02 11:18:16 · 8764 阅读 · 0 评论 -
requests.text和requests.content的区别
我们在利用requests库进行网络数据爬取时,通常遇到编码问题,在通过requests的get方法获取响应后,通常有response.text和response.content两种输出格式: 1. response.content: 这个是直接从网络上面抓取的数据,没有经过任何解码,所以说是一个bytes类型。其实在硬盘上和网络上传输的字符串都是bytes类型。 因此在利用response.content进行输出时: 我们可以利用 resonse.content.decode进行解码为unico.原创 2020-06-27 11:21:03 · 11103 阅读 · 1 评论