爬虫基础_requests库

原创

已于 2022-02-12 08:35:46 修改 · 729 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#爬虫 #python

于 2022-02-07 10:01:48 首次发布

这篇博客介绍了Python爬虫中requests库的基本使用和高级功能，包括GET和POST请求的处理，响应状态码判断，Session维持以实现Cookie管理，SSL证书验证，超时设置，身份认证以及使用代理。还提及了手动构建Request对象的方法，并提供了相关资源链接。

安装

pip install requests

基本使用

处理GET请求

import requests

url = 'https://www.httpbin.org/get'
params = {
   
     # GET请求参数
    'name': 'germey',
    'age': 25
}
headers = {
   
     # 请求头信息
     'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.93 Safari/537.36',
}
# GET请求参数放在params里, 请求头信息放在headers里, cookies信息也放在headers里
resp = requests.get(url, params=params, headers=headers)
# 如果响应的页面出现乱码, 可以在这里设置字符编码, 常用的字符编码有'utf-8', 'gbk'
resp.encoding = 'utf-8'

print(type(resp.status_code), resp.status_code)  # 获取相应状态吗, int类型
print(type(resp.url), resp.url)  # 获取URL, str类型
print(type(resp.cookies), resp.cookies)  # 获取Cookies信息, requests.cookies.RequestsCookieJar, 类似于字典
print(type(resp.headers), resp.headers)  # 获取响应头信息, requests.structures.CaseInsensitiveDict
print(type(resp.text), resp.text)  # 获取响应文本, str类型
print(type(resp.content), resp.content)  # 获取响应的二进制数据, bytes类型
print(type(resp.json()), resp.json())  # 获取响应的json数据, 解析成字典类型
print(type(resp.history), resp.history)  # 获取请求历史信息, list类型

处理POST请求

import requests

url = 'https://www.httpbin.org/post'
data = {
   
     # POST请求参数
    'name': 'germey',
    'age': 25
}
headers = {
   
     # 请求头信息
     'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleW