搜索引擎最主要的由三部分组成:蜘蛛(google的称为机器人)、索引和程序。
蜘蛛程序
Google的蜘蛛程序分为主蜘蛛和从蜘蛛,当Google全面更新数据库或收录新网站时,派出主蜘蛛,对网站进行全面的索引(如收录新页、重新确定网页级别等);当Google对网站日常更新时,派出从蜘蛛,对网站内容进行维护。当发现页面有变化时,其从蜘蛛对此页面进行更新,重新抓取内容。蜘蛛程序会根据一个固定的周期回访其目录中的站点,寻找更新。至于爬行程序回访的频率,这要由搜索引擎确定。网站拥有者通过采用一个名为robot.txt的文件确实能控制爬行程序访问这个站点的页面。搜索引擎在进一步爬行一个网站之前首先查看这个文件。(测试robot.txt)
目录索引
目录索引就像一个巨大的网站目录,这个目录中全是其蜘蛛程序抓取的网站的列表。据Google公布的数据,目前,Google已经收录了80亿个网站,而更新这些索引也是相当费时间的,一般更新的周期大约一个月左右,所以,对于一个新网站来说,蜘蛛程序可能已经爬行了你的网站,但没有列如索引中,而第一次被列入的也是基本索引,还未别列入其主索引中,只有当Google下次更新索引时才会被列入主索引,在这期间,Google会对网站有一个相应的评估,会临时出现一个较好的排名,但此时的排名不是真正的排名,只有等到Google下次更新时,才会转化为真正的排名。这也就是说为什么一个新的网站被索引了而却找不到排名,或者说一个新网站刚开始排名很好,而过段时间排名就下降或是找不到的原因。
程序
Google机器人会对其索引中的网站按照自己独有的程序进行判断,为每个网站进行分类、评分并对网页中的内容进行分析,找出关键词,当用户输入一个关键词搜索时,就会按照分析好的索引进行排列并加以显示。
二·搜索引擎的流程图(google)
如图所示,网页蜘蛛的工作流程:网站根目录-->建立搜索结果的表单-->整理结果,建立索引-->加密数据,保存-->存储用户数据
所以我们在搜索引擎上找到的网页其实是存在GOOGLE服务器上的。