【王树森搜索引擎技术】相关性01:搜索相关性的定义与分档

工业界是怎么做的?

  • 制定标注规则 -> 标注数据 -> 训练模型 -> 线上推理
  • 搜索产品和搜索算法团队定义相关性标注规则
    • 认为地将 (q,d) 相关性划分为 4个 或 5个 档位
    • 相关性文档规则非常重要!假如日后有大幅度变动,需要重新标注数据,丢弃累积的数据
  • 产品和算法团队监督指导团队的工作,累积数十万,数百万条 (q,d) 样本
  • 算法团队用人工标注的数据训练相关性模型

相关性档位划分

在这里插入图片描述

字面匹配 vs 需求匹配

  • 相关性是指 d 能满足 q 的需求或回答 q 提出的问题
  • 哪怕 q 和 d 在字面上完全不匹配,两者也可以判定为相关
    在这里插入图片描述
  • 即便 q 和 d 字面匹配,两者可能不想管
    在这里插入图片描述
  • 相关性标注只考虑相关性,不考虑内容质量,时效性等因素
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值