深入探索深网:互联网的隐秘角落
1. 深网的定义
深网(Deep Web),也被称为隐形网络(Invisible Web),这两个术语在如今基本可以互换使用。关于深网有两种常见的定义,均源于2001年。
Chris Sherman和Gary Price将隐形网络定义为:那些通过网络可获取,但由于技术限制,通用搜索引擎无法添加到网页索引中,或者搜索引擎出于主观选择而不添加的文本页面、文件或其他通常高质量的权威信息。简单来说,就是通用搜索引擎找不到的所有信息。
Michael Bergman对深网的定义则更为狭窄,他认为深网是那些在特定搜索结果动态生成之前并不存在的页面。也就是说,这些文档是在对深网源进行查询时动态生成的,只有在查询响应时才会被创建。
为了更好地理解深网和表层网络(Surface Web)的区别,有一个形象的比喻:表层网络就像一艘撒网捕鱼的渔船,只能捕获水面附近的鱼;而深网中的鱼游得更深,渔网无法触及,需要用特别合适的鱼竿去捕捉。在这个类比中,搜索引擎就如同渔网,只能捕获表层网络的内容,而深网内容则需要特殊工具才能获取。
2. 深网的内容
2.1 深网内容类型
Sherman和Price列举了隐形网络的内容类型:
- 孤立页面 :这些页面没有与其他文档链接,因此无法通过爬虫程序找到。
- 主要由图像、音频文件或视频组成的页面 :搜索引擎的索引基于文本,如果这些文件类型中没有(或几乎没有)文本,内容就无法被找到。搜索引擎主要通过周围的文本来捕获此类文件。
- 搜
超级会员免费看
订阅专栏 解锁全文
2498

被折叠的 条评论
为什么被折叠?



