前天学了一下lucene,感觉自己这方面的理论知识太欠缺了,所以又去下载了《搜索引擎—原理、技术与系统》这本电子看一下,补补相关原理性的东西,以便日后用lucene不至于那么迷惑。
把今天的看的点知识,挑重要的记下来。
1)搜索引擎是什么?
“搜索引擎”,说到底是一个计算机应用软件系统,或者说是一个网络应用软件系统。
网络搜索引擎:它根据用户提交的类自然语言查询词或者短语,返回一系列很可能与该查询相关的网页信息,供用户进一步判断和选取。(全引自《搜索引擎—原理、技术与系统》,呵呵
,没有进行任何提炼)。
2)网络搜索引擎的主要组成
主要分为三个子系统:网页搜集,预处理和查询服务。
3)网络搜索返回的主要结果
最终提供给用户的是:三个元素(标题<title></title>,网址链接URL,摘要)结果集列表。
“在一个可以接受的时间内返回一个和该用户查询匹配的网页信息列表”,强调:可以接受的时间,匹配,列表(需要rank).
4)三个子系统的基本策略
(1)网页搜集:提前抓取(crawl)-策略:定期搜集或增量搜集或折中。
具体搜集:主动链接深度递归遍历求异收集或链接的宽度求异收集或折中。
(2)预处理:关键词的提取,重复或转载网页的消除,链接分析,网页重要程度的计算。
(3)查询服务:查询方式和匹配,结果排序,文档摘要。
已得到了网页索引数据库:原始网页文档,URL和标题,编号,所含的重要关键词的集合(以及它们在文档中出现的位置信息),其他一些指标(例如重要程度,分类代码等)-倒排文件结构的索引数据库。
本文介绍了搜索引擎的基本概念和技术原理,包括其主要组成(网页搜集、预处理和查询服务)、搜索结果的表现形式(标题、网址链接和摘要),以及各子系统的具体策略。
299

被折叠的 条评论
为什么被折叠?



