这就是搜索引擎——检索模型与搜索结果排序

布尔模型

布尔模型是检索模型中最简单的一种,理论基础就是集合论。
用户查询一般使用“与或非”这些逻辑连接词,比如用户希望找到与苹果公司相关的信息,可以用如下的逻辑表达式查询:苹果AND(乔布斯OR iPad),代表的涵义很容易理解。
在这里插入图片描述
对于上面的文档,满足搜索的要求是D3和D5。

布尔模型很简单,但是其结果是二元的,要么相关要么不相关。所以无法根据搜索结果进行排序,而且对普通用户来说,使用Or And Not很难。

向量空间模型

向量空间模型作为一种文档表示和相似性计算的工具,不仅仅在搜索领域,在自然语言处理、文本挖掘等诸多其他领域也是普遍采用的有效工具。


  • 文档表示

向量空间模型把每个文档看做是由t维特征组成的向量,这些特征可以是单词、词组等多种形式,最常用的还是单词。
直接看图,很容易明白:
在这里插入图片描述
特征与文档的交点就是权重。这种模型下,用户的查询也可以被看做一个特殊的文档,也将其转换为t维的特征向量。
权重怎么计算?
答案是:TF-IDF算法。 http://www.tfidf.com/

TF(t)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值