数据库开发(18)信息检索

本文详细介绍了信息检索的概念,强调了全文检索在文档查询中的作用。讨论了向量空间模型、流行度排名算法如HITS,以及搜索引擎作弊的策略。还涉及网络爬虫、索引构建、深度Web爬虫以及查询结果多样化的处理。信息抽取和问答系统的应用,以及结构化数据查询在信息检索中的重要性也得到了阐述。

1、信息检索:指的是非结构化文本数据的查询。

2、基于用户输入来定位相关文档构成了信息检索的过程,用户输入包括关键字、示例文档等。用户预期的文档通常用关键字集合来描述。

信息检索系统一般允许使用由关键字和逻辑连接词(and,or,not)组成的查询表达式。

在全文检索中,每份文档中的所有词都当作关键字。

我们用术语来表示文档中的词。一份文档对一个术语的相关性称作术语频率(TF)。一个查询Q可能包含多个关键字。

3、基于相似性的检索:

一个将文档视作n维空间中的点和向量的模型称作向量空间模型。

4、流行度排名:

基本思想是找到流行的页面,把它们的位置排在同样包含特定关键字的其他页面之前。

一种方法是找出一个页面被访问的次数。另一种是使用指向一个页面的超链接来度量其流行度。

书签文件通常是私下进行存储的,是不能在Web上得到的。

一种替代方法是将流行度与站点相关联,而不是和页面相关联。一个站点的所有页面获得该站点的流行度。

5、HITS算法:

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值