seo

最新推荐文章于 2025-09-08 20:55:49 发布

最新推荐文章于 2025-09-08 20:55:49 发布 · 175 阅读

文章标签：

http://www.seowhy.com/45_14_zh.html

百度搜索的工作原理是什么

2011.04.12<span style="vertical-align: baseline; margin-top: 0px; margin-right: 5px; margin-bottom: 0px; margin-left: 5px; padding-top: 0px; padding-right: 0px; padding-bottom: 0px; padding-left: 22px; background-image: url(http://www.cdseo8.com/wp-content/themes/loper1.1/images/singleimg.jpg); background-attachment: initial; background-origin: initial; background-clip: initial; background-color: initial; background-position: 0px -66px; background-repeat: no-repeat no-repeat;"><a href="http://www.cdseo8.com/157.html#respond" title="百度搜索的工作原理是什么上的评论">No Comments</a>

百度搜索的工作原理大体上可以分成三个阶段。
（1）爬行和抓取：百度蜘蛛通过跟踪链接访问网页，获得页面HTML代码存入数据库。
（2）预处理：索引程序对抓取来的页面数据进行文字提取、中文分词、索引等处理，以备排名程序调用。
（3）排名：用户输入关键词后，排名程序调用索引库数据，计算相关性，然后按一定格式生成搜索结果页面。

下面详细介绍百度搜索的工作原理：

一、爬行和抓取

百度搜索用来爬行和访问页面的程序被称为蜘蛛（spider）。百度蜘蛛访问网站页面时类似于普通用户使用的浏览器，蜘蛛程序发出页面访问请求后，服务器返回HTML代码，蜘蛛程序把收到的代码存入原始页面数据库。为了提高爬行和抓取速度，百度搜索都是使用多个百度蜘蛛并发分布爬行。蜘蛛访问任何一个网站时都会先访问网站根目录下的robots.txt文件，如果robots.txt文件禁止百度搜索抓取某些文件或者目录，蜘蛛将遵守协议，不抓取被禁止的网址内容。

为了抓取网上尽量多的页面，搜素引擎蜘蛛会跟踪页面上的链接，从一个页面爬行到下一个页面，就好像蜘蛛在蜘蛛网上爬行一样，这就是百度蜘蛛名称的由来。百度蜘蛛最简单的爬行方式分为两种：深度优先、广度优先

深度优先：蜘蛛沿着发现的链接一直向前爬行，直到前面再也没有其他链接，然后返回到第一个页面，沿着另一个链接再一直往前爬行。

广度优先：蜘蛛在一个页面上发现多个链接时，不是顺着一个链接一直向前，而是把页面上所有第一层链接都爬一遍，然后再沿着第二层页面上发现的链接爬向第三层页面。通常这两种爬行方式是混合使用的。

为了避免重复爬行和抓取网址，百度搜索会建立一个地址库，记录已经被发现还没有抓取的页面和已经被抓取的页面。

二、预处理

提取文字：百度搜索预处理首先要做的就是从HTNL文件中去除标签、程序，提取出可以用于排名处理的网页文字内容（还包括META标签中的文字、图片替代文字、FLASH文件替代文字、链接锚点文字等）。

中文分词：中文分词一般分为两类：字典匹配、基于统计。

字典匹配：将待分析的一段汉字与一个事先造好的词典中的词条进行匹配，在待分析汉字串中扫描到词典中已有的词条则匹配成功，或者说切分出一个单词。

基于统计：分析大量文字样本，计算出字与字相邻出现的统计概率，几个字相邻出现越多，就越可能形成一个单词。

去停止词：百度搜索在索引页面之前会去掉一些停止词，如：“的”、“地”、“得”之类的助词，“啊”、“哈”、“呀”之类的感叹词，“从而”、“以”、“却”之类的副词或介词。

消除噪声：百度搜索需要识别并消除噪声，排名时不使用噪声内容，基本方法是根据HTML标签对页面分块，区分出页头、正文、页脚、广告等区域，在网站上大量重复出现的区块往往属于噪声，对页面消噪后剩下的才是页面的主体内容。

去重：同一篇文章经常重复出现在不同网站及同一个网站的不同网址上，搜索引擎并不喜欢则好重啊个重复性的内容，搜索引擎希望只返回相容文章的一篇，所以在惊醒索引前还需要识别和删除重复内容，这个过程就成为“去重”。