1. 爬虫的工作原理:
- (获取数据)当你决定去某个网页时,爬虫可以模拟浏览器去向服务器发送请求
- (解析数据)等服务器响应后,爬虫可以代替浏览器帮我们解析数据
- (提取数据)接着爬虫可以根据我们设定的规则批量提取相关数据,
- (储存数据)最后爬虫可以批量把数据存储到本地
2. 获取爬虫:
- requests.get()方法
import requests
#引入requests库
URL='某网址'
res = requests.get('URL')
#requests.get是在调用requests库中的get()方法,它向服务器发送了一个请求,括号里的参数是你需要的数据所在的网址,然后服务器对请求作出了响应。
#我们把这个响应返回的结果赋值在变量res上。
- Response对象的常用属性
将上面代码,加上print(type(res)),输出结果为<class 'requests.models.Response'>,可以看出res是一个对象,属于requests.models.Response类。
| 属性 |
作用 |
| res.status_code | 检查请求是否成功 |
| res.content |
把res对象转换为二进制数据 |
| res.text |
把res对象转换为字符串数据 |
| res.en |

本文介绍了爬虫的基本工作原理,包括获取、解析、提取和存储数据的步骤。重点讲解了Python requests库中Response对象的使用,如通过.get()方法发送请求,利用status_code属性检查响应状态,content属性用于下载二进制内容如图片,text属性获取文本内容,以及encoding属性处理字符编码问题。
最低0.47元/天 解锁文章
925





