BM25算法详解

BM25算法在二元独立模型基础上考虑单词在查询和文档中的权重,通过概率论和经验参数调整得分。公式涉及词频、文档长度等,其中k1、k2和b是可调节参数,用于平衡词频和文档长度的影响。该算法广泛应用于信息检索和搜索引擎。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

概括:
BM25算法通过加入文档权值和查询权值,拓展了二元独立模型的得分函数。这种拓展是基于概率论和实验验证的,并不是一个正式的模型。BM25模型在二元独立模型的基础上,考虑了单词在查询中的权值以及单词在文档中的权值,拟合综合上述考虑的公式,并通过实验引入经验参数。
BM25的原始公式为:
(公式1)
log后有三部分组成,其中,第一部分是二元独立模型的计算得分

二元独立模型介绍:
有两个假设:
假设一:二元假设
类似于布尔模型的方法,一篇文章由特征表示时,以特征“出现”和“不出现”两种情况表示,亦可以理解成特征“相关”和“不相关”。
假设二:词汇独立性假设
所谓独立性假设,是指文档里出现的单词之间没有任何关联,任一个单词在文章中的分布率不依赖于另一个单词是否出现,这个假设明显与事实不符,但是为了简化计算,很多地方需要做出独立性假设,这种假设是普遍的。

在以上两个假设的前提下,二元独立模型即可以对两个因子P(D|R)和P(D|NR)进行估算(条件概率),举个简单的例子,文档D中五个单词的出现情况如下:{1,0,1,0,1} 0表示不出现,1表示出现。用Pi表示第i个单词在相关文档中出现的概率,在已知相关文档集合的情况下,观察到文档D的概率为:

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值