
爬虫
爬你所需
西西coding
爱好者多如牛毛,会造轮子的少之又少
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
【爬虫】50 行代码爬取王者荣耀 98 个英雄所有皮肤
思路1. 分析目标网页,确定爬取的 url 路径2. 发送请求 requests 模拟浏览器发送请求,获取响应数据3. 解析数据4. 保存数据使用谷歌浏览器打开王者荣耀官网 找到英雄资料 调出检查工具 ...原创 2020-03-23 13:34:08 · 2172 阅读 · 1 评论 -
【爬虫】 03 模拟浏览器访问网页&使用代理池访问网页
用自己的请求头 headers (我的不可用,已做过处理)如何找到自己的 headers ?F12 或者 开发者工具 找到 Network 在 Name 这一栏点击一个文件 找到右侧的 Request Headers 向下滑动找到 User-Agent 即为自己的 header 再找不到就百度!!!import urllib.requesturl = 'htt...原创 2020-03-07 00:14:41 · 427 阅读 · 1 评论 -
【爬虫】 02 将爬取到的网页写入文件中
import urllib.request# 在执行过程中,会产生缓存urllib.request.urlretrieve('http://www.mingxing.com/',filename=r'D:\pypypy\space\18\1.txt')# 清除缓存urllib.request.urlcleanup()print('已清除')...原创 2020-03-07 00:04:58 · 1037 阅读 · 0 评论 -
【爬虫】01 urllib 爬取网页
import urllib.requestresponse = urllib.request.urlopen('https://www.baidu.com/')data = response.readlines()print(data)# 返回当前环境有关信息print(response.info())# 返回状态码 200成功处理了请求print(response.get...原创 2020-03-07 00:03:47 · 266 阅读 · 0 评论