上次我们学到了requests库 建筑兔零基础自学记录69|爬虫Requests-2-优快云博客
一、requests13个参数
requests.request(method, url, **kwargs)
**kwargs: 控制访问的13个参数,均为可选项
- params : 字典或字节序列,作为参数增加到url中
- data:字典、字节序列或文件对象,作为Request的内容
- json:JSON格式的数据,作为Request的内容
- headers : 字典,HTTP定制头(模拟浏览器)
- files : 字典类型,传输文件
- timeout : 设定超时时间,秒为单位
- proxies : 字典类型,设定访问代理服务器,可以增加登录认证(代理服务器,防止爬虫逆追踪)
- allow_redirects : True/False,默认为True,重定向开关
- stream : True/False,默认为True,获取内容立即下载开关
- verify : True/False,默认为True,认证SSL证书开关
- cert : 本地SSL证书路径
- cookies : 字典或CookieJar,Request中的cookie
- auth : 元组,支持HTTP认证功能
二、网络爬虫的尺寸
三、网络爬虫的限制
1、
来源审查:判断User‐Agent进行限制:检查来访HTTP协议头的User‐Agent域,只响应浏览器或友好爬虫的访问
2、
发布公告:Robots协议:告知所有爬虫网站的爬取策略,要求爬虫遵守
四、Robots协议
在网站根目录下的robots.txt文件,告知网络爬虫哪些页面可以抓取,哪些不行
http://www.baidu.com/robots.txt
http://news.sina.com.cn/robots.txt
http://www.moe.edu.cn/robots.txt (无robots协议,打不开)
五、Robots协议遵守方式
Robots协议是建议但非约束性,网络爬虫可以不遵守,但存在法律风险
