es的相关性算分-BM25算法：词频超过一定数量，超过的那部分不进行算分

最新推荐文章于 2024-11-19 03:44:00 发布

原创最新推荐文章于 2024-11-19 03:44:00 发布 · 1.9k 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

数据库专栏收录该内容

9 篇文章

订阅专栏

相关性算分是排序文档的关键，基于倒排索引，通过TF、DF和IDF等参数评估相关度。BM25是Elasticsearch 5.x后的默认模型，优化了TF/IDF，当词频过高时降低其权重，超过一定数量的词不再计入算分，有助于论文查重，建议使用专业词汇。

在这里插入图片描述
相关性算分：指文档与查询语句间的相关度，通过倒排索引可以获取与查询语句相匹配的文档列表

如何将最符合用户查询需求的文档放到前列呢？
本质问题是一个排序的问题，排序的依据是相关性算分，确定倒排索引哪个文档排在前面

影响相关度算分的参数：
1、TF(Term Frequency)：词频，即单词在文档中出现的次数，词频越高，相关度越高
2、Document Frequency(DF)：文档词频，即单词出现的文档数
3、IDF(Inverse Document Frequency)：逆向文档词频，与文档词频相反，即1/DF。即单词出现的文档数越少，相关度越高（如果一个单词在文档集出现越少，算为越重要单词）
4、Field-length Norm：文档越短，相关度越高

——TF/IDE模型
在这里插入图片描述

——BM25模型（5.X之后的默认模型）
对之前算分进行优化
在这里插入图片描述

BM25相比TF/IDF的一大优化是降低了tf在过大时的权重，避免词频对查询影响过大

总结一句话就是：BM25算法的优化，如果你单个词超过一定数量，这个词超过的那部分，将不进行算分！
这也就是应用到论文查重了，多写专业用词，避免常规用词！

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。