搜索引擎爬虫访问权限规则：robots.txt介绍

最新推荐文章于 2023-12-19 17:20:20 发布

原创最新推荐文章于 2023-12-19 17:20:20 发布 · 1.5k 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#搜索引擎 #google #yahoo #文档

本文介绍了robots.txt文件的作用及其基本配置方法。通过设置此文件，网站管理员可以控制爬虫访问网站的具体内容，例如禁止爬虫访问特定目录。文章还提及了RobotsMETA标签的应用现状。

作者：冬眠的考拉
日期：2008年4月15日

robots.txt置于网站的跟目录下。爬虫根据此文件决定网站下的哪些页面是被授权抓取的。
robots.txt内容如下：

#example
User-agent:*
Disallow:/secure

意为对任何爬虫，禁止其访问/secure目录下的文件。

这篇文件是个最简单的介绍了，其实看参考文件即可，robots.txt十分容易理解。参考文献4中提到了
robots meta，“目前看来，绝大多数的搜索引擎机器人都遵守robots.txt的规则，而对于Robots META标签，目前支持的并不多，但是正在逐渐增加，如著名搜索引擎GOOGLE就完全支持”，Google不愧是专业啊。

参考文档：

[1] Yahoo!搜索日志：《Robots.txt 协议标准》介绍 http://ysearchblog.cn/2007/09/robotstxt.html

[2] A Standard for Robot Exclusion http://www.robotstxt.org/orig.html

[3] How do I prevent my site or certain subdirectories from being crawled? http://help.yahoo.com/l/us/yahoo/search/webcrawler/slurp-02.html

[4] 如何写robots.txt？ http://www.dunsh.org/2006/08/02/robotstxt/