最近有时间学习在慕课网上跟着嵩天老师上他的Python网络爬虫与信息提取这门课,想着可以写些博客将学的爬虫知识总结起来。
1 Requests库入门
1.1 Requests库的安装
Win平台下:前提是安装好Python,在cmd中执行“pip installl requests”。其他方法的话可以在网上搜索。
1.2 Requests库的一些主要方法及其使用
1.2.1 Requests库的get方法
r=requests.get(url) 其中get返回的是response对象。
response对象的属性:
其中,status_code为200是表示正常,404或其他为异常。
另外,encoding和apparent_encoding的区别在于:
get方法的使用
requests.request(method, url, **kwargs)
1.2.2 request方法的使用。
requests.request() 构造一个请求,支撑put、head等其他方法。
requests.request(method, url, **kwargs)
url:页面的url链接。
**kwargs:控制访问项。可以为:params data json headers cookies auth files timeout proxies allow_redirects stream verify cert 。
1.2.3 head方法的使用。
requests.head(url, **kwargs)
其中的参数
url:页面链接。
**kwargs:12个控制访问的参数。
1.2.4 post方法的使用。
requests.post(url, data=None,json=None,**kwargs)
其中的参数:
url:页面链接。
data:字典或字节序列或文件。
json:JSON格式的数据。
**kwargs:12个控制访问的参数。
1.2.5 put方法的使用
requests.put(url, data=None,**kwargs)
其中的参数:
url:页面链接。
data:字典或字节序列或文件。
kwargs:12个控制访问的参数。
1.2.6 patch方法的使用
requests.patch(url, data=None,**kwargs)
其中的参数:
url:页面链接。
data:字典或字节序列或文件。
kwargs:12个控制访问的参数。.
1.2.7 delete方法的使用
requests.delete(url, **kwargs)
其中的参数:
url:页面链接。
kwargs:12个控制访问的参数。