推荐系统Transformer模型的十亿参数规模化实践
推荐系统工作原理
推荐问题的数学定义很简单:为每个用户选择他们可能喜欢的物品。但存在几个挑战:
- 物品目录庞大(高达数十亿物品)
- 用户数量庞大且兴趣不断变化
- 用户与物品的交互非常稀疏
- 难以准确定义用户偏好
为解决这些问题,需要利用非平凡的机器学习模型。神经网络是强大的机器学习工具,特别适用于处理大量非结构化数据。
推荐系统架构
推荐生成时间严格受限,因此通常采用多阶段架构:
- 召回阶段:使用轻量模型从整个目录中选择相对较小的候选集
- 排序阶段:对候选集运行更复杂的模型,利用额外信息和更密集的计算
双塔神经网络架构在召回阶段非常流行,它将用户和物品分别编码为向量表示,并使用点积计算相似度。
ARGUS:自回归生成用户序列建模
ARGUS是我们训练推荐Transformer的新方法。我们观察用户的完整匿名历史记录,包括所有交互而不仅仅是正面交互。
两个学习任务
下一个物品预测
基于历史和当前交互上下文,预测用户将与哪个物品交互:P(物品 | 历史, 上下文)。如果历史仅包含推荐流量,模型学习模仿日志策略;如果包含自然流量,还能获得关于用户的更基础知识。
反馈预测
基于历史、当前上下文和物品,预测用户反馈:P(反馈 | 历史, 上下文, 物品)。此任务专注于获取关于用户偏好和兴趣的基础知识。
模型实现与优化
简化ARGUS
完整ARGUS方法中,每个交互由三个标记表示,导致序列长度膨胀。为加速训练,我们创建了简化版本,将每个三元组压缩为单个向量。
部署策略
我们选择离线双塔排序作为首次部署方案:
- 使用ARGUS每日重新计算用户和物品向量
- 用户偏好通过用户与物品的点积确定
- 针对与最终排序模型相同的成对排序任务进行微调
实验结果
我们在音乐流媒体服务中进行了实验,构建了包含超过3000亿次收听记录的庞大数据集。
规模扩展结果
我们测试了四种不同规模的Transformer配置,参数从320万到10.07亿不等。每个架构规模的提升都带来了质量增益,无论是在预训练还是微调阶段。
实施效果
ARGUS模型实现了:
- 用户历史长度增加8倍
- 编码器规模增加10倍
- 总收听时间显著提升
- 喜欢可能性大幅增加
在"陌生"设置中,ARGUS实现了12%的总收听时间增长和10%的喜欢可能性增长。在智能设备音乐场景中,用户活跃时间增加了0.75%。
结论
神经网络是推荐系统的未来,ARGUS方法通过规模化Transformer模型,在推荐质量上实现了显著提升。我们已将其应用于排序和候选生成,取得了关键指标的显著增益。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)
2247

被折叠的 条评论
为什么被折叠?



