相关性算法--Elasticsearch相关性算法

Elasticsearch的相关性算法主要包括布尔模型、TF/IDF和向量空间模型。布尔模型通过and、or、not匹配文档;TF/IDF计算词频;向量空间模型利用词的权重形成坐标系中的向量,通过比较角度评估相关性。此外,Elasticsearch还应用了查询归一化因子、协调因子、字段长度归一值、字段权重和boost等调整相关性评分。

Elasticsearch相关性算法

Elasticsearch相关性算法主要分为三大部分:布尔模型,TF/IDF,向量空间模型

布尔模型:and,or,not根据这些条件来匹配文档,判断搜索词是否在文档中。

TF/IDF:相关性算法--TF/IDF 这篇文章里已经介绍了相关内容,计算词频的一种方法。

空间向量模型:每个词的在文档的集合中都有自己的权重,比如词A的权重为2,词B的权重为5,这样我们可以计作向量(2,5),他在坐标系上的图形就是远点到(2,5)点之间的连线。当我们搜索A,B的时候,有些文档中只存在A,有的文档只存在B,就可以近似的看作(2,0)和 (0,5),A和B都存在的就是(2,5)。同样通过原点和这些点的连线。比较这些线段和原点到(2,5)的线段的角度。角度越大,相关性越低,角度越低,则表示更接近模型线段,他的相关度就更高。

以上三个主要因素决定了基础相关性的计算,除此之外,Elasticsearch还提供了许多行之有效的协调因子。

1,查询归一化因子:试图将查查询结果归一化,使查询结果之间能够相互比较。

2,协调因子:文档里出现的查询词越多,它越有机会成为好的匹配结果。

例如:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值