小白,请多多关照
import requests #导入库
r = requests.get("http://www.baidu.com") #Response对象包含爬虫返回的内容
r.status_code #状态码
r.encoding = 'utf-8' #更改编码
------------
r.apparent_encoding #根据网页内容分析出编码方式
r.text #打印
爬取网页的通用代码框架:
import requests #导入库
def getHtmltext(url): #创建一个函数
try:
r = requests.get(url, timeout = 30)
r.raise_for_status() #如果状态不是200,引发HTTPRrror异常
r.encoding = r.apparent_encoding #更改为网页分析出来的编码
return r.text #打印
except:
return "产生异常'’
if _name_ == "_main_":
url = "http://www.baidu.com"
print(getHtmltext(url))
创建一个自定义列表
Markdown
:
Authors
: John
: Luke
:requests.requests(method,url,**kwargs)
:method: 请求方式,对应get/put/post./OPTIONS…等7种
:url: 获取网页的url链接
**kwargs: 控制访问的参数,共13个
requests.get(url,params=None,**kwargs)
url: 获取页面的url链接
params: url中的额外参数,字典或字节流格式,可选
**kwargs: 12个控制访问的参数
requests.head(url,**kwargs)
url: 获取页面的url链接
**kwargs:13个控制访问的参数
requests.post(url, data=None, json=None, **kwargs)
url: 更新页面的yrl链接
data: 字典,字节序列或文件,Pequest的内容
json: JSON格式的数据,Requests
**kwargs: 11个控制访问的参数
requests.put(url,data=None,**kwargs)
url: 更新页面的url链接
data: 字典,字节序列或文件,Pequest的内容
**kwargs: 12个控制访问的参数
requests.patch(url,data=None,**kwargs)
url: 更新页面的url链接
data: 字典,字节序列或文件,Pequest的内容
**kwargs: 12个控制访问的参数
requests.delete(url,**kwargs)
url: 更新页面的url链接
**kwargs: 13个控制访问的参数
Pequests 库的7个主要方法:
requests.request() 构造一个请求,支持以下各方法的基础方法
方法 | 说明 |
---|---|
requests.get() | 获取HTML网页的主要方法,对应HTTP的GET |
requests.head() | 获取HTML网页头信息的主要方法,对应HTTP的HEAD |
requests.post() | 向HTML网页提交POST请求的方法,对应于HTTP的POST |
requests.put() | 向HTML网页提交PUT请求的方法,对应于HTTP的PUT |
requests.patch() | 向HTML网页提交局部修改请求,对应于HTTP的PATCH |
requests.delete() | 向HTML页面提交删除请求,对应于HTTP的DELETE |
HTTP协议对资源的操作:
方法 | 说明 |
---|---|
GET | 请求获取UPL位置资源 |
HEAD | 请求获取URL位置资源的响应消息报告,即获得改资源的头部信息 |
POST | 请求向URL位置的资源后附加新的数据 |
PUT | 请求向UPL位置存储一个资源,覆盖原URL位置的资源 |
RATCH | 请求局部更新URL位置的支援,即改变该资源的部分内容 |
DELETE | 请求删除URL位置存储的资源 |