BM25原理概述

BM25原理及评分公式介绍

1️⃣设定:对于查询Q={q1,q2,...,qn}Q\text{=}\{q_1,q_2,...,q_n\}Q={q1,q2,...,qn}和段落集P={P(1),P(2),…,P(N)}\mathscr{P}\text{=}\left\{P^{(1)},P^{(2)},\ldots,P^{(\text{N})}\right\}P={P(1),P(2),,P(N)},其中P(α)={p1(α),p2(α),...,pm(α)}P^{(\alpha)}\text{=}\left\{p^{(\alpha)}_1,p^{(\alpha)}_2,...,p^{(\alpha)}_m\right\}P(α)={p1(α),p2(α),...,pm(α)}

2️⃣逆文档频率:IDF(qi)=log⁡(N–DF(qi)+0.5DF(qi)+0.5+1)\displaystyle{}\text{IDF}(q_i)\text{=}\log\left(\cfrac{\text{N}–\text{DF}(q_i)\text{+}0.5}{\text{DF}(q_i)\text{+}0.5}\text{+}1\right)IDF(qi)=log(DF(qi)+0.5NDF(qi)+0.5+1)

  1. 段落频:DF(qi)\text{DF}(q_i)DF(qi)为文档频率,即在P={P(1),P(2),…,P(N)}\mathscr{P}\text{=}\left\{P^{(1)},P^{(2)},\ldots,P^{(\text{N})}\right\}P={P(1),P(2),,P(N)}中有多少个段落包含词汇qiq_iqi
  2. 含义:用于评估词qiq_iqi在段落集P\mathscr{P}P中的稀有程度,IDF\text{IDF}IDF值越高越稀有

1️⃣BM25\text{BM25}BM25评分:Score(Q,P(α))=∑i=1nIDF(qi)×(k1+1)TF(qi,P(α))TF(qi,P(α))+k1(1–b+b∣P(α)∣avgdl)\displaystyle{}\text{Score}\left(Q,P^{(\alpha)}\right)\text{=}\sum_{i=1}^{n}\text{IDF}(q_i)\text{×}\cfrac{(k_1\text{+}1)\text{TF}\left(q_i,P^{(\alpha)}\right)}{\text{TF}\left(q_i,P^{(\alpha)}\right)\text{+}k_1\left(1–b\text{+}\cfrac{b|P^{(\alpha)}|}{\text{avgdl}}\right)}Score(Q,P(α))=i=1nIDF(qi)×TF(qi,P(α))+k1(1–b+avgdlbP(α))(k1+1)TF(qi,P(α))

  1. 词频:TF(qi,P(α))\text{TF}\left(q_i,P^{(\alpha)}\right)TF(qi,P(α))为词频,即qiq_iqiP(α)P^{(\alpha)}P(α)中出现的总次数
  2. 归一化:即1–b+b∣P(α)∣avgdl1–b\text{+}\cfrac{b|P^{(\alpha)}|}{\text{avgdl}}1–b+avgdlbP(α),其中avgdl\text{avgdl}avgdl是段落的平均长度,抹除长文档的固有相似度偏好
  3. 调参:k1k_1k1bbb可供调整,适应不同的检索任务
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值