08-requests库的基础入门

最新推荐文章于 2022-03-18 11:40:29 发布

NightCharm

最新推荐文章于 2022-03-18 11:40:29 发布

阅读量511

点赞数

CC 4.0 BY-SA版权

分类专栏： python_爬虫 Python3爬虫之路文章标签： python3 爬虫基础 requests

本文链接：https://blog.youkuaiyun.com/NightCharm/article/details/79737274

python_爬虫同时被 2 个专栏收录

10 篇文章

订阅专栏

Python3爬虫之路

10 篇文章

订阅专栏

本文介绍了Python Requests库的基础使用方法，包括GET、POST等请求方式的实现，异常处理及编码问题解决方案。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

requests库的基础入门

r = requests.get(url)
# r 是Response 信息
# get请求的是Request信息

Response对象包含爬虫返回的内容

Response对象的属性

属性	说明
r.status_code	HTTP请求的返回状态，200表示连接成功，404表示失败
r.text	HTTP响应内容的字符串形式，即url对应的页面内容
r.encoding	从HTTP header中猜测的响应内容编码方式
r.apparent_encoding	从内容中分析出的响应内容编码方式（备选编码方式）
r.content	HTTP响应内容的二进制形式

补充

说一个最基础的请求逻辑：

r.status_code —> 200 —> r.text r.encoding r.apparent_encoding r.content

—> 404 或其他某些原因出错将产生异常

>>> import requests
>>> r = requests.get('http://www.baidu.com')
>>> r.text
可以发现读出来的汉字是乱码状态 -。-  我们来看看 百度的编码方式
>>> r.encoding
'ISO-8859-1'
>>> r.apparent_encoding
'utf-8'
哦吼~ 我们使用备选编码替换主编码
>>> r.encoding = 'utf-8'
>>> r.text
可以获得中文编码了~

r.encoding: 是去服务器中请求charset字段的结果并返回的，这个字段是设置网站的编码格式的，如果 header中没有charset字段，则默认编码为ISO-8859-1(这个编码并不能解析中文，所以就有了备选编码)

r.apparent_encoding: 是在HTTP的内容部分来分析网页使用的哪种编码

通用代码框架

Requests库常用的异常

异常	说明
requests.ConnectionError	网络连接错误,如DNS查询失败、拒绝连接等
requests.HTTPError	HTTP错误异常
requests.URLRequired	URL缺失异常
requests.TooManyRedirects	超过最大重定向次数，产生重定向异常
requests.ConnectTimeout	连接远程服务器超时异常
requests.Timeout	请求URL超时，产生超时异常

Response异常

异常	说明
r.raise_for_status()	如果不是200，产生异常requests.HTTPError

通用代码框架

import requests
"""通用代码框架——爬虫"""


def get_html_text(url):
    try:
        response = requests.get(url)
        response.raise_for_status()  # 如果返回的状态码不是200 则触发 HTTPError异常
        response.encoding = response.apparent_encoding  # 将备用编码替换主编码
        return response.text
    except requests.HTTPError:
        return '产生异常'


if __name__ == '__main__':
    url = 'http://www.baidu.com'
    print(get_html_text(url))

Requests库的7个主要方法

方法	说明
requests.request()	构造一个请求，支撑以下各方法的基础方法
requests.get()	获取HTML网页的主要方法，对应HTTP的GET
requests.head()	获取HTML网页头信息的方法，对应HTTP的HEAD
requests.post()	向HTML网页提交POST请求的方法，对应HTTP的POST
requests.put()	向HTML网页提交PUT请求的方法，对应HTTP的PUT
requests.patch()	向HTML网页提交局部修改请求，对应HTTP的PATCH
requests.delete()	向HTML网页提交删除请求，对应HTTP的DELETE

HTTP协议对资源的操作

方法	说明
GET	请求获取URL位置的资源
HEAD	请求获取URL位置资源的响应消息报告，即获取该资源的头部信息
POST	请求向URL位置的资源后附加新的数据
PUT	请求向URL位置存储一个资源，覆盖原有URL位置的资源
PATCH	请求局部更新URL位置的资源，即改变该处资源的部分内容
DELETE	请求删除 URL位置存储的资源

Requests库的head()方法

>>> r = requests.head('http://httpbin.org/get')  使用heade方法请求
>>> r.headers  只能请求到头信息
{'Connection': 'keep-alive', 'Server': 'meinheld/0.6.1', 'Date': 'Wed, 28 Mar 2018 12:07:22 GMT', 'Content-Type': 'application/json', 'Access-Control-Allow-Origin': '*', 'Access-Control-Allow-Credentials': 'true', 'X-Powered-By': 'Flask', 'X-Processed-Time': '0', 'Content-Length': '265', 'Via': '1.1 vegur'}
>>> r.text  尝试获取内容 -。-是空的
''

Requests库的post()方法

>>> payload = {'key': 'value1', 'key2': 'value2'}
>>> r = requests.post('http://httpbin.org/post', data=payload)
>>> r.text
{
    "form": {
        "key": "value1",
        "key2": "value2"
    }, 
}

向url中post一个字典或者一个键值对的时候会自动分配为表单内容（form）

>>> r = requests.post('http://httpbin.org/post', data='asd')
>>> r.text
{
    "data": "asd",
    "form": {},
}

如过post一个字符串，存到了data的字段下

原因是因为 post根据用户提交的内容的不同在服务器上对内容进行相关的整理

Requests库的put()方法

>>> payload = {'key': 'value1', 'key2': 'value2'}
>>> r = requests.put('http://httpbin.org/post', data=payload)
>>> r.text
{
    "form": {
        "key": "value1",
        "key2": "value2"
    }, 
}

与post方法类似只不过覆盖了原有数据

Requests库主要方法解析

request

requests.request(method, url, **kwargs)
"""
method: 请求方式， 对应get/put/post等7种
url: 获取页面的url连接
**kwargs: 控制访问参数，共13种
"""

method: 请求方式

r = requests.request('GET', url, **kwargs)
r = requests.request('HEAD', url, **kwargs)
r = requests.request('POST', url, **kwargs)
r = requests.request('PUT', url, **kwargs)
r = requests.request('PATCH', url, **kwargs)
r = requests.request('DELETE', url, **kwargs)
r = requests.request('OPTIONS', url, **kwargs)  # 服务器和客户端打交道的参数

**kwargs:控制访问的参数，均为可选项

params:字典或字节序列， 作为参数增加到url中

>>> kv = {'key1': 'values1', 'key2': 'values2'}
>>> r = requests.request('GET', 'http://python123.io/ws', params=kv)
>>> r.url
'https://python123.io/ws?key1=values1&key2=values2'

data: 字典、字节序列或文件对象，作为Request的内容

json: JSON格式的数据，作为Request的内容

headers: 字典， HTTP定制头



cookies: 字典或CookieJar, Request中的cookie
auth: 元组，支持HTTP认证功能

files: 字典类型，传输文件

timeout: 设置超时时间，秒为单位
    超时抛出TIMEOUT异常
r = requests.request('GET', 'http://www.baidu.com', timeout=10)

proxies: 字典类型，设置访问代理服务器，可以增加登录认证

pxs = {'http': 'http://.....',
      'https': 'https://....'}

r = requests.request('GET', 'http://www.baidu.com', proxies=pxs)

allow_redirects: True/False, 默认为True 重定向开关
stream: True/False, 默认为True，获取内容立即下载开关
verify: True/False, 默认为True，认证SSL证书开关
cert: 保存本地SSL证书路径

get

requests.get(url, params=None, **kwargs)
url: 获取页面的url链接
params: url中的额外参数，字典或字节流格式，可选
**kwargs: 12个控制访问的参数 （除了没有params和request一样）

head

requests.head(url, **kwargs)
url: 获取页面的url
**kwargs: 13个控制访问参数（和request一样）

post

requests.post(url, data=None, json=None, **kwargs)
url: 更新页面的url连接
data: 字典、字节序列或文件 Request的内容
json: JSON格式的数据， Request的内容
**kwargs: 11个控制访问的参数（和request一样）

put

requests.put(url, data=None, **kwargs)
url: 更新页面的url链接
data: 字典、字节序列或文件， Request的内容
**kwargs: 12个控制访问参数

patch

requests.patch(url, data=None, **kwargs)
url: 更新页面的url链接
data: 字典、字节序列或文件， Request的内容
**kwargs: 12个控制访问参数

delete

requests.delete(url, **kwargs)
url: 更新页面的url链接
**kwargs: 13个控制访问参数