学习笔记之——单元1:Requests库入门
一、Requests库的安装
Requests库是目前公认的爬取网页最好的第三方库,特点是:简单、简洁。
1. Windows下Requests的安装
win+R==>cmd(管理员命令)==>pip install requests
测试:
启动python IDLE
>>> import requests # 导入requests模块,并测试是否安装成功
>>> r = requests.get('http://www.baidu.com') # 访问百度的首页
>>> r.status_code # 查看访问状态码
200 # 200代表访问成功
>>> r.encoding = 'utf-8' # 改变编码方式为utf-8
>>> r.text # 查看网页内容
二、HTTP协议
1. HTTP基本概念
HTTP,Hypertext Transfer Protocol,超文本传输协议。
HTTP是一个基于“请求与响应"模式的、无状态的应用层协议。
HTTP协议采用URL作为定位网络资源的标识。
URL格式:http://host[:port][path]
host:合法的Internet主机域名或IP地址。
port:端口号,缺省端口为80。
path:请求资源的路径。
HTTP URL实例:
http://www.bit.edu.cn
http://220.181.111.188/duty
HTTP URL的理解:
URL是通过HTTP协议存取资源的Internet 路径,一个URL对应一个数据资源。
2. HTTP协议对资源的操作
总结:这个其实就类似于数据库,连接、改变、追加、删除等操作。
- GET——请求获取URL位置的资源。获得全部资源。
- HEAD——请求获取URL位置资源的响应消息报告,即获得该资源的头部信息。当资源大时,应用这个。
- POST——请求向URL位置的资源后附加新的数据。
- PUT——请求向URL位置存储一个资源,覆盖原URL位置的资源。
- PATCH——请求局部更新URL位置的资源,即改变该处资源的部分内容。
- DELETE——请求删除URL位置存储的资源。
这6个操作对应requests库的6个方法。
比较PATCH和PUT的区别:
假设URL位置有一组数据UserInfo,包括UserID、UserName等20个字段。
需求:用户修改了UserName,其他不变。
采用PATCH,仅向URL提交UserName的局部更新请求。优点是:节省网络带宽。
采用PUT,必须将所有20个字段一并提交到URL,未提交字段被删除。
|HTTP协议方法|Requests库方法|功能一致性|
|---- -------|---- -----|--------|
|GET |requests.get() |一致 |
|HEAD |requests.head() |一致 |
|POST |requests.post() |一致 |
|PUT |requests.put() |一致 |
|PATCH |requests.patch() |一致 |
|DELET