通过html标签限制搜索引擎

最新推荐文章于 2023-11-04 19:47:10 发布

weixin_30547797

最新推荐文章于 2023-11-04 19:47:10 发布

阅读量544

点赞数

CC 4.0 BY-SA版权

原文链接：http://www.cnblogs.com/littlejerry/archive/2011/08/16/2140594.html

本文介绍如何使用元标签和robots.txt文件控制搜索引擎对网页的抓取和索引，包括限制快照、禁止抓取及指定搜索引擎的规则。

网页未制作完成，或涉及隐私不能公布，限制搜索引擎收录

第一种情况：限制网页快照
     限制所有的搜索引擎建立网页快照: <meta name="robots" content="noarchive">
     限制百度的搜索引擎建立网页快照: <meta name="Baiduspider" content="noarchive">

第二种情况：禁止搜索引擎抓取本页面，禁止搜索引擎引用页面
      <meta name="robots" conrent="noindex,follow">
      在这里，META NAME="ROBOTS"是泛指所有的搜索引擎的，在这里我们也可以特指某个搜索引擎，例如META NAME="Googlebot"、META NAME="Baiduspide"、META NAME="www.nfrencai.com"等。
     content部分有四个命令：index、noindex、follow、nofollow，命令间以英文的“,”分隔。
INDEX命令：告诉搜索引擎抓取这个页面
FOLLOW命令：告诉搜索引擎可以从这个页面上找到链接，然后继续访问抓取下去。
NOINDEX命令：告诉搜索引擎不允许抓取这个页面
NOFOLLOW命令：告诉搜索引擎不允许从此页找到链接、拒绝其继续访问。

根据以上的命令，我们就有了一下的四种组合
<META NAME="ROBOTS" CONTENT="INDEX,FOLLOW">：可以抓取本页，而且可以顺着本页继续索引别的链接
<META NAME="ROBOTS" CONTENT="NOINDEX,FOLLOW">：不许抓取本页，但是可以顺着本页抓取索引别的链接
<META NAME="ROBOTS" CONTENT="INDEX,NOFOLLOW">：可以抓取本页，但是不许顺着本页抓取索引别的链接
<META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW">：不许抓取本页，也不许顺着本页抓取索引别的链接。

通过robots.txt
所谓的robots.txt文件，是每一个搜索引擎到你的网站之后要寻找和访问的第一个文件，robots.txt是你对搜索引擎制定的一个如何索引你的网站的规则。通过这个文件，搜索引擎就可以知道在你的网站中，哪些文件是可以被索引的，哪些文件是被拒绝索引的。

转载于:https://www.cnblogs.com/littlejerry/archive/2011/08/16/2140594.html