2.网络爬虫的“盗亦有道”
网络爬虫的尺寸:
| 小规模,数据量小; 爬取速度不敏感;Requests库 | 中规模,数据规模较大; 爬取速度敏感;Scrapy库 | 大规模,搜索引擎; 爬取速度关键;定制开发 |
|---|---|---|
| 爬取网页 玩转网页 | 爬取网站 爬取系列网站 | 爬取全网 |
网络爬虫的“骚扰”:受限于编写水平和目的,网络爬虫将会为Web服务器带来巨大的资源开销。
网络爬虫的法律风险:服务器上的数据有产权归属;网络爬虫获取数据后牟利将带来法律风险。
网络爬虫泄露隐私:网络爬虫可能具备突破简单访问控制的能力,获得被保护数据从而泄露个人隐私。
网络爬虫的限制:
1.来源审查:判断User-Agent进行限制
检查来访HTTP协议头的User-Agent域,只响应浏览器或友好爬虫的访问。
2.发布公告:Robots协议
告知所有爬虫网站的爬取策略,要求爬虫遵守。
Robots协议:Robots Exclusion Standard 网络爬虫排除标准
作用:网站告知网络爬虫哪些页面可以抓取,哪些不行。
形式:在网站根目录下的robots.txt文件。
Robots协议的使用:
网络爬虫:自动或人工识别robots.txt,再进行内容爬取
约束性:Robots协议是建议但非约束性,网络爬虫可以不遵守,但是存在法律风险
类人行为可不参考Robots协议,但不能用于商业用途。
本文探讨了网络爬虫在不同规模下的应用,从简单的Requests到复杂的Scrapy和定制开发。爬虫可能对服务器造成负担,触及法律风险,如侵犯产权和隐私。Robots协议作为非强制性规范,提醒爬虫开发者尊重网站规则。同时,遵守法律和道德规范在网络爬虫的使用中至关重要。
3300

被折叠的 条评论
为什么被折叠?



