01.初识爬虫---获取数据---Response对象的常用属性

最新推荐文章于 2025-02-16 00:30:00 发布

原创

最新推荐文章于 2025-02-16 00:30:00 发布 · 4.2k 阅读

13 ·

CC 4.0 BY-SA版权

本文介绍了爬虫的基本工作原理，包括获取、解析、提取和存储数据的步骤。重点讲解了Python requests库中Response对象的使用，如通过.get()方法发送请求，利用status_code属性检查响应状态，content属性用于下载二进制内容如图片，text属性获取文本内容，以及encoding属性处理字符编码问题。

1. 爬虫的工作原理：

（获取数据）当你决定去某个网页时，爬虫可以模拟浏览器去向服务器发送请求
（解析数据）等服务器响应后，爬虫可以代替浏览器帮我们解析数据
（提取数据）接着爬虫可以根据我们设定的规则批量提取相关数据，
（储存数据）最后爬虫可以批量把数据存储到本地

2. 获取爬虫：

requests.get()方法

import requests  
#引入requests库

URL='某网址'
res = requests.get('URL')
#requests.get是在调用requests库中的get()方法，它向服务器发送了一个请求，括号里的参数是你需要的数据所在的网址，然后服务器对请求作出了响应。
#我们把这个响应返回的结果赋值在变量res上。