信息检索概率模型

最新推荐文章于 2022-12-02 11:24:17 发布

原创

最新推荐文章于 2022-12-02 11:24:17 发布 · 4.7k 阅读

·

1

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#布林 #搜索 #数据库 #idf

本文介绍了信息检索的基本概率模型，包括如何判断文档与查询语句的相关性。通过比较P(D|R)和P(D|NR)，确定文档是否相关。接着讨论了二元独立概率模型（BIM），假设词在文档中的出现是独立的，并使用贝叶斯公式计算相关和非相关文档中term vector的概率。通过对odds和prior probability的分析，简化了计算公式，便于理解。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

基本的概率模型（简单概率模型）：

将文档分为两个部分：第一个是和查询语句相关的，第二个和查询非相关的

与查询语句相关的P(D|R) document related

与查询语句不相关的P(D|NR) document unrelated

代码实现思想：

如果

P(D|R)/ P(D|NR)> 1 则提取文档

如果

P(D|R)/P(D|NR)<1 ,则不提取文档

其他则返回查询语句不存在在文档组合当中

二元独立概率模型：（BIM)

Binary Independence Model

假设：

(1) 单个词在文档是独立的，那就不是条件概率

(2)假设是binary vectors，分为1和0，1是相关，0是非相关，vector 包括term incident vector(词语），如果x=0则是不相关（在文档），x=1就是相关（不在文档）

所以相关的概率为

P(R=1| x,q)= P(x|R=1,q) × P(R=1,q)/ P(x|q) 贝叶斯公式原公式为 P(R=1| x,q)×P(x|q) = P(x|R=1,q) × P(R=1,q)

计算的概率为在相关文档中，document的term vector到底和查询相关性的概率有多大

P(R=0| x,q)= P(x|R=0,q) × P(R=0,q)/ P(x|q) 贝叶斯公式

计算的是在非相关文档中，document的term vector到底和查询语句的想关心有多大

按照第一个简单的概率模型计算

odds=P(D|R)/ P(D|NR)

最低0.47元/天解锁文章

200万优质内容无限畅学

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。