ROBOTS协议

理解Robots协议：搜索引擎友好与隐私保护

最新推荐文章于 2025-09-24 12:35:57 发布

原创最新推荐文章于 2025-09-24 12:35:57 发布 · 2.9k 阅读

1 ·

CC 4.0 BY-SA版权

爬虫专栏收录该内容

2 篇文章

订阅专栏

Robots协议，又称网络爬虫排除标准，是网站与搜索引擎间的一种协议，用于设定允许搜索引擎抓取的页面范围。它通过robots.txt文件进行设置，包括User-agent、Allow和Disallow指令，以控制爬虫的访问权限。该协议保护网站安全，优化搜索引擎搜索效果，并尊重网站所有者的意愿。遵循方式包括搜索引擎自动识别和遵守robots.txt文件。

1、Robots协议简介

Robots协议的全称即网络爬虫排除标准”（Robots Exclusion Protocol）,，网站通过Robots协议告诉搜索引擎（或者网络蜘蛛）可以抓取的页面范围。
robots.txts是一个文本文件，是一个协议，而并非一个命令，其放置在网站的根目录下。robots.txt文件是搜索引擎访问网站时查看的第一个文件，若站点存在robots.txt文件，搜索引擎根据该文件中的内容访问确定的范围；若该文件不存在，则搜索引擎可以访问所有没有被保护的界面。
以某站点为例，其robots.txt文件如图所示：

2、Robots协议作用

1、设置网络爬虫访问权限，以保护网站；
2、控制搜索引擎的搜索范围，集中权值到主要界面，而无用界面对于搜索引擎优化而言作用不大；
3、网站内容为个人所有，其意愿应被搜索引擎所尊重，robots协议给了网站所有者表达自己意愿的机会；

3、Robots协议的写法

User-agent:*是一个通配符，表示所有的所有引擎种类；例如Baiduspider,单独限制百度搜索引擎的搜索范围；
Allow：/article 表示允许获取aiticle目录内的内容；
Dissallow：/procuct/ 表示禁止获取product目录下面的目录；
通过以上三个命令，可以组合多种写法，针对具体的搜索引擎限制相应的搜索范围。