搜索引擎蜘蛛与robot.txt的那些事儿

最新推荐文章于 2025-12-01 10:18:47 发布

转载最新推荐文章于 2025-12-01 10:18:47 发布 · 706 阅读

文章标签：

#搜索引擎 #百度 #url #搜狗 #电子商务 #互联网

网站seo优化专栏收录该内容

30 篇文章

订阅专栏

搜索引擎蜘蛛通常就是指搜索引擎用于访问各个网站及页面，然后并进行读取、抓取索引，最后收录的机器人程序。简单来说，搜索引擎通过蜘蛛程序访问并选择性的搜索你网站及页面。再换一种说法，搜索引擎蜘蛛就是搜索引擎认识各个网站的“访问者”。

最早的时候，“机器人”这个词才是在编程人员中流行的词。“电脑机器人”就是指某个以人类无法到达的速度不间断的执行某项任务的软件程序。然而，用于专门检索信息的“电脑机器人”程序就像蜘蛛一样在浩瀚的互联网内爬来爬去。因此，搜索引擎的“机器人”程序也就被泛称为“搜索引擎蜘蛛”程序了。

各大搜索引擎蜘蛛名字
谷歌机器人：googlebot
百度蜘蛛：baiduspider（也可能是因为百度在中文搜索领域的“准垄断”地位，加上百度蜘蛛的名字，使得绝大部分国内SEOer都习惯性的将“搜索引擎机器人程序”称为“蜘蛛”。）
雅虎蜘蛛：slurp
搜狗蜘蛛：sougou spider
搜搜蜘蛛：sosospider
必应机器人：msnbot
有道机器人：yodaobot/OutfoxBot
alexa蜘蛛：ia_archiver

主流搜索引擎蜘蛛习性
谷歌机器人：不太喜欢爬行，但非常喜欢收录，比较守规矩。
百度蜘蛛：谨慎爬行，更谨慎收录，反应较慢。
搜搜蜘蛛：钟爱图片，但经常在动态url中迷路。
雅虎蜘蛛：恪守规则。

各大蜘蛛对robots.txt支持程度
以robots.txt中的指令“Disallow: /*?*”分析，此规则意为禁止动态页面抓取。
谷歌机器人：在robots.txt写了禁止抓取就不再爬行相关url，在谷歌站长工具中体现相关url已被禁止。但之前已收录内容需要一段时间剔除。
百度蜘蛛：编写指令后，相关url爬行次数逐日减少。
搜狗蜘蛛：似乎视robots.txt为无物，依旧卖力的爬行。
搜搜蜘蛛：还算是比较遵守规则，禁止后就不再爬行相关url。
雅虎蜘蛛：同搜搜蜘蛛。

特别申明：此文由笔者从新组织语言，原文由铭睿撰写。笔者由中国电子商务研究中心网发现此文。

除非特殊注明，本博客文章均为于申原创，版权归于申blog©所有。
转载请务必注明出处，谢谢。
本文链接地址: http://www.yushenblog.com/seo/520.html