工业界是怎么做的?
- 制定标注规则 -> 标注数据 -> 训练模型 -> 线上推理
- 搜索产品和搜索算法团队定义相关性标注规则
- 认为地将 (q,d) 相关性划分为 4个 或 5个 档位
- 相关性文档规则非常重要!假如日后有大幅度变动,需要重新标注数据,丢弃累积的数据
- 产品和算法团队监督指导团队的工作,累积数十万,数百万条 (q,d) 样本
- 算法团队用人工标注的数据训练相关性模型
相关性档位划分
字面匹配 vs 需求匹配
- 相关性是指 d 能满足 q 的需求或回答 q 提出的问题
- 哪怕 q 和 d 在字面上完全不匹配,两者也可以判定为相关
- 即便 q 和 d 字面匹配,两者可能不想管
- 相关性标注只考虑相关性,不考虑内容质量,时效性等因素