轻松几步获得上万点击率（七）控制搜索引擎-优快云博客

本文介绍如何通过robots.txt文件和META标签阻止搜索引擎收录特定页面，保障网站安全。提供了多种配置示例，帮助理解语法。

转自：http://blog.youkuaiyun.com/diehuan2008

有些时候我们会遇到这样的困难：我们原本不想被搜索引擎收录的网站后台地址却被搜索引擎“无情”的收录，这样只要在Google里输入一个“后台、管理site:www.***.com”，自己的后台地址就会显露无疑，因此网站安全性也无从谈起。遇到这样的情况时，我们如何阻止搜索引擎收录我们不想被收录的文件呢？

一般在这个时候，我们常用的办法有两个，一个是编辑robots.txt文件，另外一个是在不想被收录的页面头部放置META NAME="ROBOTS"标签。

所谓的robots.txt文件，是每一个搜索引擎到你的网站之后要寻找和访问的第一个文件，robots.txt是你对搜索引擎制定的一个如何索引你的网站的规则。通过这个文件，搜索引擎就可以知道在你的网站中，哪些文件是可以被索引的，哪些文件是被拒绝索引的。

在很多网站中，站长们都忽略了使用robots.txt文件。因为很多站长都认为，自己的网站没有什么秘密可言，而且自己也不太会使用robots.txt的语法，因此一旦写错了会带来更多的麻烦，还不如干脆不用。

其实这样的做法是不对的。在前面的文章中我们知道，如果一个网站有大量文件找不到的时候（404），搜索引擎就会降低网站的权重。而robots.txt作为蜘蛛访问网站的第一个文件，一旦搜索引擎要是找不到这个文件，也会在他的索引服务器上记录下一条404信息。

虽然在百度的帮助文件中，有这样的一句话“请注意，仅当您的网站包含不希望被搜索引擎收录的内容时，才需要使用robots.txt文件。如果您希望搜索引擎收录网站上所有内容，请勿建立robots.txt文件。”但是我个人还是认为建立robots.txt还是必须的，哪怕这个robots.txt文件是一个空白的文本文档都可以。因为我们的网站毕竟不是仅仅会被百度收录，同时也会被其他搜索引擎收录的，所以，上传一个robots.txt文件还是没有什么坏处的。

如何写一个合理的robots.txt文件？

首先我们需要了解robots.txt文件的一些基本语法。

语法作用

写法

允许所有搜索引擎访问网站的所有部分

或者建立一个空白的文本文档，命名为robots.txt

User-agent: *

Disallow:

或者

User-agent: *

Allow: /

禁止所有搜索引擎访问网站的所有部分

User-agent: *

Disallow: /

禁止百度索引你的网站

User-agent: Baiduspider

Disallow: /

禁止Google索引你的网站

User-agent: Googlebot

Disallow: /

禁止除Google外的一切搜索引擎索引你的网站

User-agent: Googlebot

Disallow:

User-agent: *

Disallow: /

禁止除百度外的一切搜索引擎索引你的网站

User-agent: Baiduspider

Disallow:

User-agent: *

Disallow: /

禁止蜘蛛访问某个目录

（例如禁止admin\css\images被索引）

User-agent: *

Disallow: /css/

Disallow: /admin/

Disallow: /images/

允许访问某个目录中的某些特定网址

User-agent: *

Allow: /css/my

Allow: /admin/html

Allow: /images/index

Disallow: /css/

Disallow: /admin/

Disallow: /images/

使用“*”，限制访问某个后缀的域名

例如索引访问admin目录下所有ASP的文件

User-agent: *

Disallow: /admin/*.htm

使用“$”仅允许访问某目录下某个后缀的文件

User-agent: *

Allow: .asp$

Disallow: /

禁止索引网站中所有的动态页面

（这里限制的是有“?”的域名，例如index.asp?id=1）

User-agent: *

Disallow: /*?*

有些时候，我们为了节省服务器资源，需要禁止各类搜索引擎来索引我们网站上的图片，这里的办法除了使用“Disallow: /images/”这样的直接屏蔽文件夹的方式之外，还可以采取直接屏蔽图片后缀名的方式。具体办法如下。

语法作用

写法

禁止Google搜索引擎抓取你网站上的所有图片

(如果你的网站使用其他后缀的图片名称，在这里也可以直接添加)

User-agent: Googlebot

Disallow: .jpg$

Disallow: .jpeg$

Disallow: .gif$

Disallow: .png$

Disallow: .bmp$

禁止百度搜索引擎抓取你网站上的所有图片

User-agent: Baiduspider

Disallow: .jpg$

Disallow: .jpeg$

Disallow: .gif$

Disallow: .png$

Disallow: .bmp$

除了百度之外和Google之外，禁止其他搜索引擎抓取你网站的图片

(注意，在这里为了让各位看的更明白，因此使用一个比较笨的办法——对于单个搜索引擎单独定义。)

User-agent: Baiduspider

Allow: .jpeg$

Allow: .gif$

Allow: .png$

Allow: .bmp$

User-agent: Googlebot

Allow: .jpeg$

Allow: .gif$

Allow: .png$

Allow: .bmp$

User-agent: *

Disallow: .jpg$

Disallow: .jpeg$

Disallow: .gif$

Disallow: .png$

Disallow: .bmp$

仅仅允许百度抓取网站上的“JPG”格式文件

（其他搜索引擎的办法也和这个一样，只是修改一下搜索引擎的蜘蛛名称即可）

User-agent: Baiduspider

Allow: .jpg$

Disallow: .jpeg$

Disallow: .gif$

Disallow: .png$

Disallow: .bmp$

仅仅禁止百度抓取网站上的“JPG”格式文件

User-agent: Baiduspider

Disallow: .jpg$

在了解了以上这些基础的语法之后，对于robots.txt的写法各位已经有了一个大概的概念了，不过在学习写作robots.txt文件时，我们还必须要了解一些大型搜索引擎的蜘蛛名称，这样可以便于我们写做robots.txt文件。

蜘蛛名称	作用
Googlebot	Google对一般网页的索引蜘蛛
Googlebot-Mobile	Google对于移动设备，如手机网页的索引蜘蛛
Googlebot-Image	Google专门用来抓取图片的蜘蛛
Mediapartners-Google	这是Google专门为放置了Google Adsense广告联盟代码的网站使用的专用蜘蛛，只有网站放置了Google Adsense代码的情况下，Google才会使用这个蜘蛛。这个蜘蛛的作用是专门抓取Adsense广告内容
Adsbot-Google	这是Google专门为Google Adwords客户设计的蜘蛛，如果你使用了Google的Adwords服务，那么这个蜘蛛就会派出这个蜘蛛来衡量放置了你广告的网站的质量。
百度蜘蛛Baiduspider	百度的综合索引蜘蛛
雅虎蜘蛛：Yahoo! Slurp	雅虎的综合索引蜘蛛
雅虎搜索引擎广告蜘蛛Yahoo!-AdCrawler	雅虎专门为Yahoo!搜索引擎广告开发的专用蜘蛛
网易有道蜘蛛YodaoBot	网易有道搜索引擎综合索引蜘蛛
腾讯SOSO蜘蛛Sosospider	腾讯SOSO综合索引蜘蛛
搜狗蜘蛛sogou spider	搜狗综合索引蜘蛛
MSNBot	Live综合索引蜘蛛