学习笔记之——网络爬虫的Robots协议

最新推荐文章于 2025-07-13 19:59:55 发布

Jock2018

最新推荐文章于 2025-07-13 19:59:55 发布

阅读量1.4k

点赞数

CC 4.0 BY-SA版权

分类专栏：爬虫文章标签： Python爬虫 Robots协议

本文链接：https://blog.youkuaiyun.com/qq_27283619/article/details/86548018

学习笔记之——网络爬虫的Robots协议

一、网络爬虫的尺寸
二、爬虫的风险
三、网络爬虫限制
四、Robots协议
- 1. Robots协议
- 2. Robots协议的遵守方式
五、参考资料

一、网络爬虫的尺寸

小规模、数据量小，爬取速度不敏感，Requests库，>90%——爬去网页，玩转网页。
中规模，数据规模较大，爬取速度敏感，Scrapy库——爬取网站，爬取系列网站。
大规模，搜索引擎，爬取速度关键，定制开发——爬取全网。

二、爬虫的风险

给Web服务器造成巨大的资源开销。
服务器上的数据有产权归属，网络爬虫获取数据后牟利将带来法律风险。
网络爬虫可能具备突破简单访问控制的能力，获得被保护数据，从而泄露个人隐私。

三、网络爬虫限制

来源审查：判断User‐Agent进行限制
检查来访HTTP协议头的User‐Agent域，只响应浏览器或友好爬虫的访问
发布公告：Robots协议
告知所有爬虫网站的爬取策略，要求爬虫遵守

四、Robots协议

1. Robots协议

Robots Exclusion Standard，网络爬虫排除标准
作用：网站告知网络爬虫哪些页面可以抓取，哪些不行
形式：在网站根目录下的robots.txt文件

Robots协议基本语法——# 注释，*代表所有，/代表根目录

User‐agent: *
Disallow: /
例如：京东的Robots协议
https://www.jd.com/robots.txt
User‐agent: *
Disallow: /?*
Disallow: /pop/*.html
Disallow: /pinpai/*.html?*
User‐agent: EtaoSpider

最低0.47元/天解锁文章

200万优质内容无限畅学

学习笔记之——网络爬虫的Robots协议

学习笔记之——网络爬虫的Robots协议

一、 网络爬虫的尺寸

二、爬虫的风险

三、网络爬虫限制

四、Robots协议

1. Robots协议

一、网络爬虫的尺寸