搜索引擎蜘蛛与robot.txt的那些事儿

    搜索引擎蜘蛛通常就是指搜索引擎用于访问各个网站及页面,然后并进行读取、抓取索引,最后收录的机器人程序。简单来说,搜索引擎通过蜘蛛程序访问并选择性的搜索你网站及页面。再换一种说法,搜索引擎蜘蛛就是搜索引擎认识各个网站的“访问者”。


    最早的时候,“机器人”这个词才是在编程人员中流行的词。“电脑机器人”就是指某个以人类无法到达的速度不间断的执行某项任务的软件程序。然而,用于专门检索信息的“电脑机器人”程序就像蜘蛛一样在浩瀚的互联网内爬来爬去。因此,搜索引擎的“机器人”程序也就被泛称为“搜索引擎蜘蛛”程序了。


    各大搜索引擎蜘蛛名字
    谷歌机器人:googlebot
    百度蜘蛛:baiduspider(也可能是因为百度在中文搜索领域的“准垄断”地位,加上百度蜘蛛的名字,使得绝大部分国内SEOer都习惯性的将“搜索引擎机器人程序”称为“蜘蛛”。)
    雅虎蜘蛛:slurp
    搜狗蜘蛛:sougou spider
    搜搜蜘蛛:sosospider
    必应机器人:msnbot
    有道机器人:yodaobot/OutfoxBot
    alexa蜘蛛:ia_archiver


    主流搜索引擎蜘蛛习性
    谷歌机器人:不太喜欢爬行,但非常喜欢收录,比较守规矩。
    百度蜘蛛:谨慎爬行,更谨慎收录,反应较慢。
    搜搜蜘蛛:钟爱图片,但经常在动态url中迷路。
    雅虎蜘蛛:恪守规则。


    各大蜘蛛对robots.txt支持程度
    以robots.txt中的指令“Disallow: /*?*”分析,此规则意为禁止动态页面抓取。
    谷歌机器人:在robots.txt写了禁止抓取就不再爬行相关url,在谷歌站长工具中体现相关url已被禁止。但之前已收录内容需要一段时间剔除。
    百度蜘蛛:编写指令后,相关url爬行次数逐日减少。
    搜狗蜘蛛:似乎视robots.txt为无物,依旧卖力的爬行。
    搜搜蜘蛛:还算是比较遵守规则,禁止后就不再爬行相关url。
    雅虎蜘蛛:同搜搜蜘蛛。


    特别申明:此文由笔者从新组织语言,原文由 铭睿 撰写。笔者由 中国电子商务研究中心网 发现此文。






除非特殊注明,本博客文章均为于申原创,版权归于申blog©所有。
转载请务必注明出处,谢谢。
本文链接地址: http://www.yushenblog.com/seo/520.html
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值