搜索引擎如何抓取和处理网络内容
1. 网络规模与搜索引擎的挑战
网络是一个我们难以精确把握的结构,搜索引擎也同样难以完全掌握它。这意味着我们既不清楚网络的具体规模,也不确切知道搜索引擎覆盖了网络的哪些部分。
网络由数十亿个文档组成,要覆盖它需要大量的技术资源和巨额的资金投入。而且,如今网络上的许多文档是由新的信息组合自动生成的,这使得是否应该对网络文档进行计数都成了问题。由于文档数量庞大且无法全部抓取,一些专家认为搜索引擎声称能提供近乎完整的网络内容访问已经失败。
以博客为例,当我们在博客上撰写并发布一篇文章时,它无疑是一个新文档。但博客软件自动生成的概述页面呢?它列出了当前文章的摘要,主要功能是引导读者查看单篇文章。搜索引擎是否应将这些概述页面视为独立文档进行处理和抓取?此外,那些按日期、标签等自动生成的其他概述页面又该如何处理?这个例子表明,新的“文档”可以在无需特定输入的情况下自动编译和发布。原则上,网络上的所有内容都能以新的形式组合。然而,对于容量有限的搜索引擎来说,识别包含用户相关内容的文档至关重要。
为了说明由于网络结构导致的抓取问题,我们可以参考Broder等人(2000)提出的领结模型。该模型基于对网络链接的大量实证数据收集,展示了文档之间的链接关系。网络中只有部分文档是强连接的,这就是网络的核心(强连接组件,SCC),核心中的所有文档都可以通过链接直接访问。从核心发出的链接指向一个名为OUT的区域,搜索引擎很容易跟踪这些链接。相反,名为IN的区域中的链接指向核心,但核心不会反向链接到这些区域,搜索引擎跟踪这些链接会有问题,因为无法通过核心中的任何页面链接到达。IN和OUT之间的连接只是偶尔存在(管道)。除了这些连接区域,还有所谓的卷须连接到三
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



