完整的来说,一下算法包括三个函数,分别是向量相似度基本算法,BM25,语言模型方法(Jelinek-Mercer平滑)或者叫线性插值LM
向量相似度基本算法公式为:
其中w表示权重,d表示文档。权重的计算公式为w= idf为逆文档频率
BM2公式为:
均长度。
其中,k1,b为调节因子,通常根据经验设置,一般k1=2,b=0.75
本文介绍了向量相似度算法的基础,详细阐述了BM25算法及其调整参数k1和b的作用,并探讨了Jelinek-Mercer平滑在语言模型中的应用,通过实例展示了如何评估查询与文档的相关性。
其中w表示权重,d表示文档。权重的计算公式为w= idf为逆文档频率
BM2公式为:
均长度。
其中,k1,b为调节因子,通常根据经验设置,一般k1=2,b=0.75
1459
889