python爬虫
wq奔跑吧!孩子
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
爬虫(第一天)
爬虫的概念 爬虫就是:模拟浏览器发送网络请求,获取请求响应 爬虫的流程 url – > 发送请求,获取响应---->提取数据—》保存 获取响应 --》提取url地址,继续请求 浏览器的请求过程 浏览器获取的数据包含:url地址对应的响应+js+css+jpg 爬虫会获取:url地址对应的响应 爬虫获取的内容和elements内容不一样,进行数据提取的时候,需要根据url地址对应的响应为...原创 2019-04-03 20:56:21 · 168 阅读 · 0 评论 -
爬虫(第二天)
发送带headers的请求 headers = {“User-Agent”:“从浏览器中复制”} requests.get(url,headers=headers) 发送带参数的请求 params = {"":""} url_temp = “不完整的URL地址” requests.get(url_temp,params=params) 列表推导式 In [41]: [i for i in rang...原创 2019-04-08 14:50:54 · 103 阅读 · 0 评论 -
python 爬虫 多任务方式 协程 爬取虎牙美女小姐姐
准备工作 先进入虎牙直播分类颜秀把网页源码保存在meinv.html的文件中,放在pycharm 项目当前路径下。 然后把爬取后的文件保存在pycharm项目当前目录下的picture文件夹下(文件夹提前生成) 多任务思路: 先创建卵,把卵创建完后放入列表a中 再运用gevent.joinall(a)采用多任务方式下载 import urllib.request import gevent...原创 2019-04-13 22:10:31 · 610 阅读 · 0 评论 -
python 爬虫 单任务 爬取虎牙美女小姐姐
准备工作 先进入虎牙直播分类颜秀把网页源码保存在meinv.html的文件中,放在pycharm 项目当前路径下。 然后把爬取后的文件保存在pycharm项目当前目录下的picture文件夹下(文件夹提前生成) import urllib.request import gevent import re from gevent import monkey monkey.patch_all() ...原创 2019-04-13 22:34:44 · 447 阅读 · 1 评论 -
ConnectionError Max retries exceeded with url
做爬虫的时候遇到的问题,找了很久网上的办法都试了,没什么用,试了好久才知道! 错误类型: requests.exceptions.ConnectionError: HTTPSConnectionPool(host=‘www.qiushibaike.com’, port=443): Max retries exceeded with url: /hot/page/1 (Caused by NewCo...原创 2019-04-29 10:57:36 · 1199 阅读 · 0 评论
分享