BM25算法的实现过程

最新推荐文章于 2025-10-20 13:45:35 发布

原创最新推荐文章于 2025-10-20 13:45:35 发布 · 3.9k 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

算法杂货铺专栏收录该内容

5 篇文章

订阅专栏

本文档详细介绍了BM25算法的计算过程，包括IDF的计算公式和TF权重调整，以及如何利用训练集和测试集进行预处理和相似度计算。通过对示例文档的分析，阐述了如何计算两个文档之间的相似度得分。

最近需要帮别人写一个BM25的文档，写完顺便上传了

BM25是一个计算文本相似度的算法

1. BM25公式：

BM25是通过q和s中的公共词汇进行相似度计算的算法，其中

q: 待测试文档

s：需要进行相似度比较的文档

2. IDF的计算公式如下：

N是训练集的总文档数，即需要比较的文档（s）的总数量

Nt是含有单词t的文档(s)的总数量

3. tf(t,s)：公共单词t在文档s中出现的次数

4. tq(t,q): 公共单词t在文档q中出现的次数

5. k1,k3,b 都是需要调节的参数，大小在(0,1)

实现方法：

训练集：s的集合（假设组成为：ID + 文本内容）

测试集：q的集合（假设组成为：ID + 文本内容）

预处理：

1. 定义全局变量map<string1,set<string2> > ,其中string1是指训练集S中的单词所有单词，set<string>是指单词string1，出现在了哪几个训练集中，记录的是ID号

2. 创建一个文本类，记录文档的组成，组成部分如下

a. ID号

b. 文本内容（分词后，将文本以单词为单位存储在set中，注：set已经去除了重复单词）

c. hashMap（记录文档Si中，每个单词Ti出现的次数）

过程：

假设训练集有2个文档，分别为

001 ： aa bb cc aa

002 ： cc dd dd

1. 读取文档001的所有词汇aa bb cc aa

读取的过程中，将aa bb cc分别保存在全局变量map<string1,set<string2> >中，以此类推

2. 计算相似度

假设q为003 aa ee bb

计算q与001的相似度，使用BM25的公式

Q与001的公共词汇为aa,bb

第一步，计算单词aa的值

IDF中，N为文档总数量，即为2，Nt是指出现aa这个单词的总数，由于002中没有出现，Nt为1，所以IDF即为 log()

Tf（t,s）即，aa在001中出现的次数，为2

Tf（t,q）即，aa在q中出现的次数，为1

第二步，计算单词bb的值，步骤同上

第三步，把aa，bb计算的值加起来，即为q与001的BM25相似度

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。