22、搜索相关性评分的原理与实践

搜索相关性评分的原理与实践

在搜索领域,如何准确衡量文档与查询的相关性是一个核心问题。本文将介绍一些用于计算相关性评分的重要概念和模型,包括布尔模型、词频/逆文档频率(TF/IDF)、向量空间模型,以及Lucene的实用评分函数等,同时还会涉及到一些控制相关性的方法,如查询时提升和索引提升等。

布尔模型

布尔模型是一种简单而快速的匹配方法,它通过应用查询中表达的AND、OR和NOT条件来查找所有匹配的文档。例如,查询 full AND text AND search AND (elasticsearch OR lucene) 只会包含同时包含 full text search 这三个词,并且包含 elasticsearch lucene 的文档。该模型主要用于排除那些不可能匹配查询的文档。

词频/逆文档频率(TF/IDF)

当我们得到匹配文档列表后,需要对这些文档按相关性进行排序。TF/IDF是一种常用的计算文档相关性的方法,它考虑了以下三个因素:
1. 词频(Term Frequency,TF) :指一个词在文档中出现的频率。词出现的次数越多,其权重越高。计算公式为: tf(t in d) = √frequency ,其中 t 表示词, d 表示文档。如果不关心词在字段中出现的频率,只关心词是否存在,可以在字段映射中禁用词频: <

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值