基于词相关性的排序算法
BIM(binary independence model ,二元独立模型)
和朴素贝叶斯类似,假设同一篇文档里出现的词之间没有关联,互相独立。
Query 包含了若干词项 ttt。对于这个 query ,文档 doc 用一个向量表示d=(x1,x2,…,xn)d=(x_1,x_2,…,x_n)d=(x1,x2,…,xn),词项ttt出现则xt=1x_t=1xt=1,否则xt=0x_t=0xt=0。
那么 doc 与 query 相关的概率为 P(R=1∣d)P(R=1|d)P(R=1∣d)。由贝叶斯公式可得:
P(R=1∣d)=P(d∣R=1)P(R=1)P(d)P(R=1|d)=\frac{P(d|R=1)P(R=1)}{P(d)}P(R=1∣d)=P(d)P(d∣R=1)P(R=1)
定义 doc 对于 query 的相关性的优势率为:
O(R∣doc)=P(R=1∣d)P(R=0∣d)=P(d∣R=1)P(d∣R=0)P(R=1)P(R=0)O(R|doc)=\frac{P(R=1|d)}{P(R=0|d)}=\frac{P(d|R=1)}{P(d|R=0)}\frac{P(R=1)}{P(R=0)}O(R∣doc)=P(R=0∣d)P(R=1∣d)=P(d∣R=0)P(d∣R=1)P(R=0)P(R=1)
显然,P(R=1)P(R=0)\frac{P(R=1)}{P(R=0)}P(R=0)P(R=1)为常数,对于OOO的大小关系不产生影响,再由独立性假设可知
P(d∣R=1)P(d∣R=0)=∏iP(xi∣R=1)∏iP(xi∣R=0)\frac{P(d|R=1)}{P(d|R=0)}=\frac{\prod_iP(x_i|R=1)}{\prod_iP(x_i|R=0)}P(d∣R=0)P(d∣R=1)=∏iP(xi∣R=0)∏iP(xi∣R=1)
简便起见,定义:
文档 | 相关(R=1) | 不相关(R=0) |
---|---|---|
xt=1x_t=1x |