双塔模型被广泛应用于推荐系统的召回和粗排阶段,应用过程中也存在一定区别:
(1)负样本构造
召回:正样本是真实正例,负样本通过采样(全局采样、batch内采样等)得到
粗排:要接近精排,样本与精排一致,正负样本都是从用户的真实正负例中选取
召回是从海量候选集中,要把用户可能感兴趣的或完全不相关的item区分开来,所以召回在线上所面对的数据环境,就是鱼龙混杂、良莠不齐,负样本除了曝光未点击的真实负例外,也要包含未曝光的样本,目的就是让训练样本尽量符合线上真实分布,让模型“见见世面“。
(2)线上预测
召回:把item向量导入faiss,建立索引,获取user向量,在faiss中做近邻搜索,得到topn相似item作为召回候选
粗排:item向量不需要导入faiss建立索引,只需要以kv方式存储起来,获取user向量,kv库中检索获取item向量,通过内积得到粗排打分,选取topn送入精排
参考资料:
推荐系统(十八) 大厂实践经验学习:双塔模型
推荐系统(十一) 2021-2022年工业界推荐算法实践经验汇总