【王树森搜素引擎技术】相关性03:文本匹配(TF-IDF、BM25、词距)

链路上的相关性模型

  • 召回海选
    • 打分量:数万
    • 模型:文本匹配分数+线性模型或双塔BERT模型
  • 粗排
    • 打分量:数千
    • 模型:双塔BERT,或单塔BERT模型(交叉)
  • 精排
    • 打分量:数百
    • 模型:单塔BERT模型(交叉)

文本匹配

  • 传统的搜索引擎使用几十种人工设计的文本匹配分数,作为线性模型或树模型的特征,模型预测相关性分数
  • 词匹配分数(TF-IDF,BM25),词距分数(OkaTP, BM25TP)
  • 其他分数:类目匹配,核心词匹配等
  • 目前搜索排序普遍放弃文本匹配,改用BERT模型。仅剩文本召回使用文本匹配模型做海选

词匹配分数

  • 中文分词:将查询词,文档切分成多个字符串
    在这里插入图片描述
  • Q中的词在文档 d 出现的次数越多,则 q 与 d 越可能相关
  • TF-IDF 和BM25 都是基于上述想法

Term Frequency(TF)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值