信息检索概率模型

本文介绍了信息检索的基本概率模型,包括如何判断文档与查询语句的相关性。通过比较P(D|R)和P(D|NR),确定文档是否相关。接着讨论了二元独立概率模型(BIM),假设词在文档中的出现是独立的,并使用贝叶斯公式计算相关和非相关文档中term vector的概率。通过对odds和prior probability的分析,简化了计算公式,便于理解。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

基本的概率模型(简单概率模型): 

将文档分为两个部分:第一个是和查询语句相关的,第二个和查询非相关的

与查询语句相关的P(D|R) document related 

与查询语句不相关的P(D|NR) document unrelated 


代码实现思想: 

如果 

P(D|R)/ P(D|NR)> 1 则提取文档

如果

P(D|R)/P(D|NR)<1 ,则不提取文档

其他则返回查询语句不存在在文档组合当中


二元独立概率模型:(BIM) 

Binary Independence Model 

假设:

(1) 单个词在文档是独立的,那就不是条件概率 

(2)假设是binary vectors,分为1和0,1是相关,0是非相关,vector 包括term incident vector(词语),如果x=0则是不相关(在文档),x=1就是相关(不在文档)

所以相关的概率为

P(R=1| x,q)= P(x|R=1,q) × P(R=1,q)/ P(x|q)  贝叶斯公式 原公式为 P(R=1| x,q)×P(x|q) = P(x|R=1,q) × P(R=1,q)

计算的概率为在相关文档中,document的term vector到底和查询相关性的概率有多大

P(R=0| x,q)= P(x|R=0,q) × P(R=0,q)/ P(x|q) 贝叶斯公式

计算的是在非相关文档中,document的term vector到底和查询语句的想关心有多大


按照第一个简单的概率模型计算

odds=P(D|R)/ P(D|NR)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值