bm25 是什么?
bm25 是一种用来评价搜索词和文档之间相关性的算法,它是一种基于概率检索模型提出的算法,再用简单的话来描述下bm25算法:我们有一个query和一批文档Ds,现在要计算query和每篇文档D之间的相关性分数,我们的做法是,先对query进行切分,得到单词
q
i
q_i
qi,然后单词的分数由3部分组成:
单词
q
i
q_i
qi和D之间的相关性
单词
q
i
q_i
qi和D之间的相关性
每个单词的权重
最后对于每个单词的分数我们做一个求和,就得到了query和文档之间的分数。
参考:https://www.jianshu.com/p/53e379483f3e
https://www.jianshu.com/p/1e498888f505