The waebsite is the API
1 Request 自动爬取HTML页面自动网络请求提交
Requests库的七个主要方法
requests.requesr() 一个请求,支撑以下各方法的基础方法
requests.getr() 获取HTML网页的主要方法,对应于HTTP的GET
requests.head() 获取HTML网页头部信息的方法,对应于HTTP的HEAD
requests.post() 向HTML网页提交POST请求的方法,对应于HTTP的POST
requests.put() 向HTML网页提交PUT请求的方法,对应于HTTP的PUT
requests.patch() 向HTML网页提交局部修改请求,对应于HTTP的patch
requests.delet
2 robots.txt 网络爬虫排除标准
3 Projects
HTTP协议
HTTP, Hypertext Transfer Protocol ,超文本传输协议
HTTP是一个基于“请求于响应” 模式的、无状态的应用层协议。
URL格式 http://host[:port][path]
host:合法的Internet主机域名或IP地址
port:端口号,缺省端口为80
path:请求资源路径
HTTP URL的理解:
URL是通过HTTP协议存取资源的Internet路径,一个URL对应一个数据资源
HTTP协议对资源的操作
GET 请求获取URL位置的资源
requests.get()完整使用方法有三个函数
request.get(url,params=None,**kwargs)
url:尼获取页面的url链接
params:url中的额外参数,字典或字节流格式,可选
**kwargs: 12个控制访问的参数
r=requests,get(url)
Requests库的2个重要对象
requests-----Response 对象包含爬虫返回的内容
Response对象的属性(务必牢记)
属性 | 说明 |
r.status_code | HTTP请求的返回状态,200表示连接成功,404表示失败 |
r.text | HTTP响应内容的字符串形式,即,url对应的页面内容 |
r.apparent_encoding | 从内容中分析出的响应内容编码方式(备选编码方式) |
r.encoding | 从HTTP header中猜测的响应内容编码方式 |
r.content | HTTP响应内容的二进制形式 |
HEAD 请求获取URL位置资源的响应消息报告,即获得该资源的头部信息
POST请求向URL位置的资源后附加新的资源
PUT请求向URL位置存储一个资源,覆盖URL位置的资源
PATCH请求局部更新URL位置的资源,即改变该处资源的部分内容
DELETE 请求删除URL位置存储的资源