基于词相关性的排序算法

本文介绍了基于词相关性的排序算法,包括BIM(二元独立模型)、tf-idf以及BM25和BM25F。BIM通过贝叶斯公式计算文档与查询的相关性;tf-idf考虑词频影响;BM25改进了词频的处理,BM25F则针对文档的不同字段加权求和。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

基于词相关性的排序算法

BIM(binary independence model ,二元独立模型)

和朴素贝叶斯类似,假设同一篇文档里出现的词之间没有关联,互相独立。
Query 包含了若干词项 ttt。对于这个 query ,文档 doc 用一个向量表示d=(x1,x2,…,xn)d=(x_1,x_2,…,x_n)d=(x1,x2,,xn),词项ttt出现则xt=1x_t=1xt=1,否则xt=0x_t=0xt=0
那么 doc 与 query 相关的概率为 P(R=1∣d)P(R=1|d)P(R=1d)。由贝叶斯公式可得:
P(R=1∣d)=P(d∣R=1)P(R=1)P(d)P(R=1|d)=\frac{P(d|R=1)P(R=1)}{P(d)}P(R=1d)=P(d)P(dR=1)P(R=1)

定义 doc 对于 query 的相关性的优势率为:
O(R∣doc)=P(R=1∣d)P(R=0∣d)=P(d∣R=1)P(d∣R=0)P(R=1)P(R=0)O(R|doc)=\frac{P(R=1|d)}{P(R=0|d)}=\frac{P(d|R=1)}{P(d|R=0)}\frac{P(R=1)}{P(R=0)}O(Rdoc)=P(R=0d)P(R=1d)=P(dR=0)P(dR=1)P(R=0)P(R=1)

显然,P(R=1)P(R=0)\frac{P(R=1)}{P(R=0)}P(R=0)P(R=1)为常数,对于OOO的大小关系不产生影响,再由独立性假设可知
P(d∣R=1)P(d∣R=0)=∏iP(xi∣R=1)∏iP(xi∣R=0)\frac{P(d|R=1)}{P(d|R=0)}=\frac{\prod_iP(x_i|R=1)}{\prod_iP(x_i|R=0)}P(dR=0)P(dR=1)=iP(xiR=0)iP(xiR=1)

简便起见,定义:

文档 相关(R=1) 不相关(R=0)
xt=1x_t=1x
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值