检索学习

本文介绍了TF-IDF(词频-逆文档频率)和OkapiBM25两种文本检索算法的基本概念及应用场景。TF-IDF通过衡量词汇在文档中的重要性来实现信息检索;OkapiBM25在此基础上引入了额外参数以优化检索效果。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

TF-IDF

TF:词频,词语在某一文档中出现的次数。
IDF:逆文本频率,一个词越稀有,这个值越高。文件总数除以包含该词语的文件数目,再将得到的商取对数。
TF*IDF得到一个词语在文档中的权重,即这个词稀有程度和在文档中出现的频繁程度。
可以用于文档的搜索查询,对于查询中的每个关键字,计算tfidf分数,并相加。得分最高的就是与查询语句最符合的文档。

Okapi BM25

属于bag-of-words模型,即只考虑文档中的词频,不考虑句子结构或语法关系,把文档看成装words的袋子,具体袋子里面可以是乱序的。
新的版本BM25F可以考虑文档结构和链接文本,代表类tf-idf检索功能的最优方法
其在tf-idf基础上增加了两个可调参数,k1(词语频率饱和度)和b(字段规约长度)
k1:指一篇文章某个词语频率具有上限,即某个词出现40次和80次是一样的,值介于1.2-2.0,数值越低饱和过程越快即赋予某个词40次和80次的
分数相同
b:将文档的长度归约化到全部文档的平均长度。
值介于0-1 1意味着全部归约

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值