Requests库的安装
Win操作系统: 以管理员身份运行 cmd, 执行 pip install requests
Requests库的7个主要方法
# 爬取网页的通用代码框架
import requests
def getHTMLText(url):
try:
r = requests.get(url, timeout=30)
r.raise_for_status() # 如果状态不是200,引发HTTPError异常
r.encoding = r.apparent_encoding
return r.text
except:
return "产生异常"
if __name__ == "__main__":
url = "http://www.baidu.com"
print(getHTMLText(url))
**kwargs: 控制访问参数,均为可选参数
参数 | 说明 |
params |
字典或字节序列,作为参数增加到url中 >>> kv = {'key1':'value1','key2':'value2'} |
data |
字典,字节序列或文件对象,作为Request的内容 >>> kv = {'key1':'value1','key2':'value2'} |
json | JSON格式的数据,作为Request的内容 |
header |
字典,HTTP定制头 |
cookies | 字典或CookieJar,Request中的cookie |
auth | 元组,支持HTTP认证功能 |
files |
字典类型,传输文件 >>> fs = {'file' : open('data.xls', 'rb)} >>> r = requests.request('POST', 'http://www.baidu.com', files=fs) |
timeout | 设定超时时间,以秒为单位 |
proxies |
字典类型,设定访问代理服务器,可以增加登录认证 可以隐藏真实IP,避免反扒追踪 |
allow_redirects | True/False,默认为True,重定向开关 |
stream | True/False,默认True,获取内容立即下载开关 |
verify |
True/False,默认True,认证SSL证书开关 |
cert | 本地SSL证书路径 |