排序算法：从BIM到BM25F-优快云博客

本文介绍了基于词相关性的排序算法，包括BIM（二元独立模型）、tf-idf以及BM25和BM25F。BIM通过贝叶斯公式计算文档与查询的相关性；tf-idf考虑词频影响；BM25改进了词频的处理，BM25F则针对文档的不同字段加权求和。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

基于词相关性的排序算法

BIM（binary independence model ，二元独立模型）

和朴素贝叶斯类似，假设同一篇文档里出现的词之间没有关联，互相独立。
Query 包含了若干词项 $t$ 。对于这个 query ，文档 doc 用一个向量表示 $d=(x_1,x_2,…,x_n)$ ，词项 $t$ 出现则 $x_t=1$ ，否则 $x_t=0$ 。
那么 doc 与 query 相关的概率为 $P (R = 1 ∣ d)$ 。由贝叶斯公式可得：
$P(R=1∣d)=P(d∣R=1)P(R=1)P(d)P(R=1|d)=\frac{P(d|R=1)P(R=1)}{P(d)}$

定义 doc 对于 query 的相关性的优势率为：
$O(R∣doc)=P(R=1∣d)P(R=0∣d)=P(d∣R=1)P(d∣R=0)P(R=1)P(R=0)O(R|doc)=\frac{P(R=1|d)}{P(R=0|d)}=\frac{P(d|R=1)}{P(d|R=0)}\frac{P(R=1)}{P(R=0)}$

显然， $P(R=1)P(R=0)\frac{P(R=1)}{P(R=0)}$ 为常数，对于 $O$ 的大小关系不产生影响，再由独立性假设可知
$P(d∣R=1)P(d∣R=0)=∏iP(xi∣R=1)∏iP(xi∣R=0)\frac{P(d|R=1)}{P(d|R=0)}=\frac{\prod_iP(x_i|R=1)}{\prod_iP(x_i|R=0)}$