有时站长不希望抓取和收录某些页面,为确保页面不被收录,需要使用robots文件或Meta Robots标签。
1、robots文件
搜索引擎蜘蛛访问网站时,会先查看网站根目录下有没有一个命名为robots.txt的纯文本文件,robots.txt用于指令搜索引擎禁止抓取网站某些内容或指定允许抓取某些内容。robots.txt文件有记录组成,记录之间以空行分开,记录格式为:<域>:<可选空格><域值><可选空格>
2、meta robots标签
meta robots标签是页面head部分meta标签的一种,用于指令搜索引擎禁止索引本项内容。最简单的meta robots标签格式为:<meta name="robots" content="noindex,nofollow">其中,NOINDEX告诉蜘蛛不要索引本页面;NOFOLLOW告诉蜘蛛不要跟踪本页面上的链接;NOSNIPPET告诉搜索引擎不要在搜索结果中显示说明文字;NOARCHIVE告诉搜索引擎不要显示快照;NOODP告诉搜索引擎不要使用开放目录中的标题和说明。
3、nofollow属性的使用
nofollow代码形式为:<a href="http://www.example.com/" rel="nofollow">这里是锚文字</a>。nofollow最初目的是减少垃圾链接对搜索引擎排名的影响,搜索引擎看到这个标签就不会跟踪爬行链接,也不传递链接权重和锚文字。