1.全文检索搜索与分类目录搜索
万维网是一个大规模的、联机式的信息储藏所。那么,应当采用什么方法才能找到所需的信息呢?如果已经知道存放该信息的网点,那么只要在浏览器的地址(Location)框内键入该网点的URL和回车键,就可进入该网点。但是,若不知道要找的信息在何网点,那就要使用万维网的搜索工具。
在万维网中用来进行搜索的工具叫做搜索引擎(search engine)。搜索引擎的种类很多,但大体上可划分为两大类,即全文检索搜索引擎和分类目录搜索引擎。
全文检索搜索引擎是一种纯技术型的检索工具。它的工作原理是通过搜索软件(例如一种叫做“蜘蛛”或“网络机器人”的Spider程序)到因特网上的各网站收集信息,找到一个网站后可以从这个网站再链接到另一个网站,像蜘蛛爬行一样。然后按照一定的规则建立一个很大的在线数据库供用户查询。用户在查询时只要输入关键词,就从己经建立的索引数据库上进行查询(并不是实时地在因特网上检索到的信息)。因此很可能有些查到的信息己经是过时的。建立这种索引数据库的网站必须定期对已建立的数据库进行更新维护。现在最出名的全文检索搜索引擎就是Google(谷歌)网站(www.google.com),它搜集的网页数量超过80亿个,图片超过10亿个,在整个搜索引擎市场中占有的份额超过50%。我们接着将介绍Google搜索技术的特点。在中文搜索引擎中,最出名的是百度网站(www.baidu.com) 。
分类目录搜索引擎并不采集网站的任何信息,而是利用各网站向搜索引擎提交的网站信息时填写的关键词和网站描述等信息,经过人工审核编辑后,如果认为符合网站登录的条件,则输入到分类目录的数据库中,供网上用户查询。因此,分类目录搜索也叫做分类网站搜索。分类目录的好处就是用户可根据网站设计好的目录有针对性地逐级查询所需要的信息