利用自定义HEADER屏蔽搜索引擎

本文介绍如何通过自定义header中的meta信息来阻止特定或全部搜索引擎的爬虫抓取站点内容,包括noindex和nofollow的使用方法。

搜索引擎收录blog对有些人而言并非是件好事,例如我就不喜欢百度的爬虫扫我的站,带来毫无意义的访问和闲杂人等。对于使用 blogbus这样的BSP用户而言,自行定义robots.txt还没法实现,不过好在bus最近新推出了个自定义header的功能,我们可以利用meta 信息来屏蔽某些搜索引擎乃至全部

假如你想屏蔽所有搜索引擎的抓取的话,可以在自定义header里添加如下一句

<meta name="robots" content="noindex, nofollow" />

noindex 的作用是要求搜索引擎不索引你的网页,而nofollow 则是不跟随网页里出现的外部链接。例如你不希望你网页里的apple.com的链接被跟随从而间接的提高apple.com的pagerank或者说免费替它打广告,nofollow 的作用就显现了,事实上很多comment spam就是利用nofollow 以躲避搜索引擎将其网站视为作弊的处罚。

当然,如果我们只想屏蔽某些爬虫的话,只需要把meta 里的name 属性改成相应的爬虫名字,例如:

<meta name="baiduspider" content="noindex, nofollow" />
<meta name="sosospider" content="noindex, nofollow" />
<meta name="sogouspider" content="noindex, nofollow" />

这三句的话分别把百度,腾讯搜搜(实如其名,just so so),搜狗的爬虫给屏蔽了

至于你想屏蔽更多的话,请google关键字"搜索引擎名字 robots.txt"

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值