学习笔记之——单元1:Requests库入门

一、Requests库的安装

Requests库是目前公认的爬取网页最好的第三方库,特点是:简单、简洁。

1. Windows下Requests的安装

win+R==>cmd(管理员命令)==>pip install requests
测试:
启动python IDLE

>>> import requests # 导入requests模块,并测试是否安装成功
>>> r = requests.get('http://www.baidu.com') # 访问百度的首页
>>> r.status_code  # 查看访问状态码
200 # 200代表访问成功
>>> r.encoding = 'utf-8' # 改变编码方式为utf-8
>>> r.text # 查看网页内容

二、HTTP协议

1. HTTP基本概念

HTTP,Hypertext Transfer Protocol,超文本传输协议。
HTTP是一个基于“请求与响应"模式的、无状态的应用层协议。
HTTP协议采用URL作为定位网络资源的标识。
URL格式:http://host[:port][path]
host:合法的Internet主机域名或IP地址。
port:端口号,缺省端口为80。
path:请求资源的路径。
HTTP URL实例:
http://www.bit.edu.cn
http://220.181.111.188/duty
HTTP URL的理解:
URL是通过HTTP协议存取资源的Internet 路径,一个URL对应一个数据资源。

2. HTTP协议对资源的操作

总结:这个其实就类似于数据库,连接、改变、追加、删除等操作。

  1. GET——请求获取URL位置的资源。获得全部资源。
  2. HEAD——请求获取URL位置资源的响应消息报告,即获得该资源的头部信息。当资源大时,应用这个。
  3. POST——请求向URL位置的资源后附加新的数据。
  4. PUT——请求向URL位置存储一个资源,覆盖原URL位置的资源。
  5. PATCH——请求局部更新URL位置的资源,即改变该处资源的部分内容。
  6. DELETE——请求删除URL位置存储的资源。
    这6个操作对应requests库的6个方法。
    比较PATCH和PUT的区别:
    假设URL位置有一组数据UserInfo,包括UserID、UserName等20个字段。
    需求:用户修改了UserName,其他不变。
    采用PATCH,仅向URL提交UserName的局部更新请求。优点是:节省网络带宽。
    采用PUT,必须将所有20个字段一并提交到URL,未提交字段被删除。
    |HTTP协议方法|Requests库方法|功能一致性|
    |---- -------|---- -----|--------|
    |GET |requests.get() |一致 |
    |HEAD |requests.head() |一致 |
    |POST |requests.post() |一致 |
    |PUT |requests.put() |一致 |
    |PATCH |requests.patch() |一致 |
    |DELET
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值