爬虫基础_requests库

这篇博客介绍了Python爬虫中requests库的基本使用和高级功能,包括GET和POST请求的处理,响应状态码判断,Session维持以实现Cookie管理,SSL证书验证,超时设置,身份认证以及使用代理。还提及了手动构建Request对象的方法,并提供了相关资源链接。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

安装

pip install requests

基本使用

处理GET请求

import requests

url = 'https://www.httpbin.org/get'
params = {
   
     # GET请求参数
    'name': 'germey',
    'age': 25
}
headers = {
   
     # 请求头信息
     'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.93 Safari/537.36',
}
# GET请求参数放在params里, 请求头信息放在headers里, cookies信息也放在headers里
resp = requests.get(url, params=params, headers=headers)
# 如果响应的页面出现乱码, 可以在这里设置字符编码, 常用的字符编码有'utf-8', 'gbk'
resp.encoding = 'utf-8'

print(type(resp.status_code), resp.status_code)  # 获取相应状态吗, int类型
print(type(resp.url), resp.url)  # 获取URL, str类型
print(type(resp.cookies), resp.cookies)  # 获取Cookies信息, requests.cookies.RequestsCookieJar, 类似于字典
print(type(resp.headers), resp.headers)  # 获取响应头信息, requests.structures.CaseInsensitiveDict
print(type(resp.text), resp.text)  # 获取响应文本, str类型
print(type(resp.content), resp.content)  # 获取响应的二进制数据, bytes类型
print(type(resp.json()), resp.json())  # 获取响应的json数据, 解析成字典类型
print(type(resp.history), resp.history)  # 获取请求历史信息, list类型

处理POST请求

import requests

url = 'https://www.httpbin.org/post'
data = {
   
     # POST请求参数
    'name': 'germey',
    'age': 25
}
headers = {
   
     # 请求头信息
     'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleW
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值