一、bm25的应用和基础
参考:BM25算法 原理简介_小白的进阶的博客-优快云博客_bm25
医学领域,BM25算法的应用,文档分类,相似度识别以及疾病、手术等实体的相似度匹配。文档的处理相对简单,可以直接调用相关算法包,实体单词的相似度匹配需要对文本做相关的处理。对比研究,在文档中,表示特征的主要是单词,而在实体名词(疾病、手术、药品名称)中,表示特征的是字或者由n-gram切分的元素,当用字表示特征时,文本的语义会丢失,所以我建议用字和n-gram(n>=2)分词元素作为特征。
BM25算法相关性分数的构成:
分为两个类别,一个是计算文档与文档的相似度,另一个是计算词与词的相似度,如果计算的是词(或称为短文本)与词之间的相似度,那么就要用n-gram切词,进而以每个元素为单位进行计算。
以文档相似度为例:
相关性分数公式如下:

里面包含三部分计算:
(1)元素的权重,计算tf-idf,文档的元素就是词,短文本的元素为字或n-gram元素:

其中N表示索引中全部文档数,

本文介绍了BM25算法在医学文档分类、相似度识别中的应用,强调了在处理实体相似度匹配时,建议使用字和n-gram作为特征。通过解析BM25的相关性分数公式,展示了其在文档相似度计算中的作用。同时,提供了一个使用gensim库进行疾病相似度分类的实例,并给出了具体代码。最后,提到了在实际文本分类任务中,需要结合jieba分词和停用词设置。
最低0.47元/天 解锁文章
9568

被折叠的 条评论
为什么被折叠?



