一、爬虫尺寸的大小
1.主要以爬取网页,玩转网页为主
特点是 小规模,数据量小,爬取速度不敏感
通常使用Requests库就行 比例非常高
对于Robots协议来说:
访问量很小,可以遵守
访问量较大:建议遵守
2.爬取网站,爬取系列网站
特点:中规模,规模数据较大,爬取速度敏感
通常需要使用Scrapy库
Scrapy库是专门用来Python专门用来爬取网站级别的库
对于Robots协议来说:
非商业且偶尔:建议遵守
商业利益:必须遵守
3.爬取全网
特点:大规模,搜索引擎,爬取速度关键
像百度等等,需要定制开发
对于Robots协议来说:
必须遵守
出现的问题有:
1.对网站的骚然问题,对于网站的维护带来不利
2法律风险,主要是爬取到的数据不能用来盈利
3.隐私泄露,主要是爬虫可以较为简单的突破封锁
网络爬虫的限制:
1.来源审查:User-Agent进行限制
检查来访HTTP协议头的User-Agent域,只响应浏览器或友好爬虫的访问
2.、Robots协议 Robots Exclusion Standard 网络爬虫排除标准
告知所有爬虫网站的爬取策略,要求爬虫遵守
遵不遵守看个人。总体来说,类人行为可不参考Pobots协议
Robots协议
作用:网站告知网络爬虫哪些页面可以抓取,哪些不行
形式:在网站根目录下的robots.txt文件
Robot协议基本语法:
User-agent:*
Disallow:/
*代表所有,/代表根目录
Robots协议的使用:
网络爬虫:自动或人工识别robots.txt,再进行内容爬取
约束性:Robots协议是建议但不是约束性,网络爬虫可以不遵守,但存在法律风险
934

被折叠的 条评论
为什么被折叠?



