1️⃣设定:对于查询Q={q1,q2,...,qn}Q\text{=}\{q_1,q_2,...,q_n\}Q={q1,q2,...,qn}和段落集P={P(1),P(2),…,P(N)}\mathscr{P}\text{=}\left\{P^{(1)},P^{(2)},\ldots,P^{(\text{N})}\right\}P={P(1),P(2),…,P(N)},其中P(α)={p1(α),p2(α),...,pm(α)}P^{(\alpha)}\text{=}\left\{p^{(\alpha)}_1,p^{(\alpha)}_2,...,p^{(\alpha)}_m\right\}P(α)={p1(α),p2(α),...,pm(α)}
2️⃣逆文档频率:IDF(qi)=log(N–DF(qi)+0.5DF(qi)+0.5+1)\displaystyle{}\text{IDF}(q_i)\text{=}\log\left(\cfrac{\text{N}–\text{DF}(q_i)\text{+}0.5}{\text{DF}(q_i)\text{+}0.5}\text{+}1\right)IDF(qi)=log(DF(qi)+0.5N–DF(qi)+0.5+1)
- 段落频:DF(qi)\text{DF}(q_i)DF(qi)为文档频率,即在P={P(1),P(2),…,P(N)}\mathscr{P}\text{=}\left\{P^{(1)},P^{(2)},\ldots,P^{(\text{N})}\right\}P={P(1),P(2),…,P(N)}中有多少个段落包含词汇qiq_iqi
- 含义:用于评估词qiq_iqi在段落集P\mathscr{P}P中的稀有程度,IDF\text{IDF}IDF值越高越稀有
1️⃣BM25\text{BM25}BM25评分:Score(Q,P(α))=∑i=1nIDF(qi)×(k1+1)TF(qi,P(α))TF(qi,P(α))+k1(1–b+b∣P(α)∣avgdl)\displaystyle{}\text{Score}\left(Q,P^{(\alpha)}\right)\text{=}\sum_{i=1}^{n}\text{IDF}(q_i)\text{×}\cfrac{(k_1\text{+}1)\text{TF}\left(q_i,P^{(\alpha)}\right)}{\text{TF}\left(q_i,P^{(\alpha)}\right)\text{+}k_1\left(1–b\text{+}\cfrac{b|P^{(\alpha)}|}{\text{avgdl}}\right)}Score(Q,P(α))=i=1∑nIDF(qi)×TF(qi,P(α))+k1(1–b+avgdlb∣P(α)∣)(k1+1)TF(qi,P(α))
- 词频:TF(qi,P(α))\text{TF}\left(q_i,P^{(\alpha)}\right)TF(qi,P(α))为词频,即qiq_iqi在P(α)P^{(\alpha)}P(α)中出现的总次数
- 归一化:即1–b+b∣P(α)∣avgdl1–b\text{+}\cfrac{b|P^{(\alpha)}|}{\text{avgdl}}1–b+avgdlb∣P(α)∣,其中avgdl\text{avgdl}avgdl是段落的平均长度,抹除长文档的固有相似度偏好
- 调参:k1k_1k1与bbb可供调整,适应不同的检索任务
BM25原理及评分公式介绍
1759

被折叠的 条评论
为什么被折叠?



