目录
一、认识爬虫
浏览器的工作原理:

爬虫的工作原理:

爬虫工作4个步骤:
第0步:获取数据。爬虫程序会根据我们提供的网址,向服务器发起请求,然后返回数据。
第1步:解析数据。爬虫程序会把服务器返回的数据解析成我们能读懂的格式。
第2步:提取数据。爬虫程序再从中提取出我们需要的数据。
第3步:储存数据。爬虫程序把这些有用的数据保存起来,便于你日后的使用和分析。
二、获取数据:模块requests
1、requests功能:
requests库可以帮我们下载网页源代码、文本、图片,甚至是音频。即是向服务器发送请求并得到响应。
requests为第三方模块,安装方法:
Mac电脑:pip3 instal requests
Windows电脑:pip install requests
2、requests常用方法与属性
requests.get(url),它向服务器发送了一个请求,括号里的参数是你需要的数据所在的网址,然后服务器对请求作出了响应,并返回一个Response对象。
| Response对象的常用属性 |
||
| 序号 |
属性 |
作用 |
| 1 |
response.status_code |
检查请求是否成功,并返回响应状态码,一般如果响应状态码为200,即代表请求成功。 |
| 2 |
response.content |
吧response对象转换为二进制数据,图像、音频和视频等数据需要转换成二进制数据再存储。 |
| 3 |
response.text |
吧response对象转换成字符串形式返回,适用于文字、网页源代码的下载。 |
| 4 |
response.encoding |
定义response对象的编码格式,获取目标数据后要知道相应的编码类型才能正确解码。 |
| 常见响应状态码解释(status_code) |
|||
| 响应状态码 |
说明 |
举例 |
说明 |
| 1xx |
请求收到 |
100 |
继续提出请求 |
| 2xx |
请求成功 |
200 |
成功 |
| 3xx |
重定向 |
305 |
应使用代理访问 |
| 4xx |
客户端错误 |
403 |
禁止访问 |
Python爬虫基础:requests与BeautifulSoup实战

本文介绍了Python爬虫的基本操作,包括使用requests模块获取网页数据和使用BeautifulSoup解析提取数据。讲解了爬虫的工作原理,requests库的使用,如get方法和请求头Request Headers的应用,以及BeautifulSoup的解析功能。文中还通过爬取豆瓣电影Top250的案例,展示了完整的爬取流程,并提到了反爬虫技术和lxml模块的使用。
最低0.47元/天 解锁文章
3490

被折叠的 条评论
为什么被折叠?



