链路上的相关性模型
- 召回海选
- 打分量:数万
- 模型:文本匹配分数+线性模型或双塔BERT模型
- 粗排
- 打分量:数千
- 模型:双塔BERT,或单塔BERT模型(交叉)
- 精排
- 打分量:数百
- 模型:单塔BERT模型(交叉)
文本匹配
- 传统的搜索引擎使用几十种人工设计的文本匹配分数,作为线性模型或树模型的特征,模型预测相关性分数
- 词匹配分数(TF-IDF,BM25),词距分数(OkaTP, BM25TP)
- 其他分数:类目匹配,核心词匹配等
- 目前搜索排序普遍放弃文本匹配,改用BERT模型。仅剩文本召回使用文本匹配模型做海选
词匹配分数
- 中文分词:将查询词,文档切分成多个字符串
- Q中的词在文档 d 出现的次数越多,则 q 与 d 越可能相关
- TF-IDF 和BM25 都是基于上述想法