Requests库的安装
Win操作系统: 以管理员身份运行 cmd, 执行 pip install requests

Requests库的7个主要方法







# 爬取网页的通用代码框架
import requests
def getHTMLText(url):
try:
r = requests.get(url, timeout=30)
r.raise_for_status() # 如果状态不是200,引发HTTPError异常
r.encoding = r.apparent_encoding
return r.text
except:
return "产生异常"
if __name__ == "__main__":
url = "http://www.baidu.com"
print(getHTMLText(url))



**kwargs: 控制访问参数,均为可选参数
| 参数 | 说明 |
| params |
字典或字节序列,作为参数增加到url中 >>> kv = {'key1':'value1','key2':'value2'} |
| data |
字典,字节序列或文件对象,作为Request的内容 >>> kv = {'key1':'value1','key2':'value2'} |
| json | JSON格式的数据,作为Request的内容 |
| header |
字典,HTTP定制头 |
| cookies | 字典或CookieJar,Request中的cookie |
| auth | 元组,支持HTTP认证功能 |
| files |
字典类型,传输文件 >>> fs = {'file' : open('data.xls', 'rb)} >>> r = requests.request('POST', 'http://www.baidu.com', files=fs) |
| timeout | 设定超时时间,以秒为单位 |
| proxies |
字典类型,设定访问代理服务器,可以增加登录认证 可以隐藏真实IP,避免反扒追踪 |
| allow_redirects | True/False,默认为True,重定向开关 |
| stream | True/False,默认True,获取内容立即下载开关 |
| verify |
True/False,默认True,认证SSL证书开关 |
| cert | 本地SSL证书路径 |
本文介绍如何在Windows系统上安装Requests库,并提供了一个爬取网页的通用代码框架。此外,还详细解释了Requests库中**kwargs参数的作用及用法,包括如何设置URL参数、POST数据、JSON数据等。

6572

被折叠的 条评论
为什么被折叠?



