十亿参数推荐Transformer的规模化实践

推荐系统Transformer模型的十亿参数规模化实践

推荐系统工作原理

推荐问题的数学定义很简单:为每个用户选择他们可能喜欢的物品。但存在几个挑战:

  • 物品目录庞大(高达数十亿物品)
  • 用户数量庞大且兴趣不断变化
  • 用户与物品的交互非常稀疏
  • 难以准确定义用户偏好

为解决这些问题,需要利用非平凡的机器学习模型。神经网络是强大的机器学习工具,特别适用于处理大量非结构化数据。

推荐系统架构

推荐生成时间严格受限,因此通常采用多阶段架构:

  1. 召回阶段:使用轻量模型从整个目录中选择相对较小的候选集
  2. 排序阶段:对候选集运行更复杂的模型,利用额外信息和更密集的计算

双塔神经网络架构在召回阶段非常流行,它将用户和物品分别编码为向量表示,并使用点积计算相似度。

ARGUS:自回归生成用户序列建模

ARGUS是我们训练推荐Transformer的新方法。我们观察用户的完整匿名历史记录,包括所有交互而不仅仅是正面交互。

两个学习任务

下一个物品预测
基于历史和当前交互上下文,预测用户将与哪个物品交互:P(物品 | 历史, 上下文)。如果历史仅包含推荐流量,模型学习模仿日志策略;如果包含自然流量,还能获得关于用户的更基础知识。

反馈预测
基于历史、当前上下文和物品,预测用户反馈:P(反馈 | 历史, 上下文, 物品)。此任务专注于获取关于用户偏好和兴趣的基础知识。

模型实现与优化

简化ARGUS

完整ARGUS方法中,每个交互由三个标记表示,导致序列长度膨胀。为加速训练,我们创建了简化版本,将每个三元组压缩为单个向量。

部署策略

我们选择离线双塔排序作为首次部署方案:

  • 使用ARGUS每日重新计算用户和物品向量
  • 用户偏好通过用户与物品的点积确定
  • 针对与最终排序模型相同的成对排序任务进行微调

实验结果

我们在音乐流媒体服务中进行了实验,构建了包含超过3000亿次收听记录的庞大数据集。

规模扩展结果

我们测试了四种不同规模的Transformer配置,参数从320万到10.07亿不等。每个架构规模的提升都带来了质量增益,无论是在预训练还是微调阶段。

实施效果

ARGUS模型实现了:

  • 用户历史长度增加8倍
  • 编码器规模增加10倍
  • 总收听时间显著提升
  • 喜欢可能性大幅增加

在"陌生"设置中,ARGUS实现了12%的总收听时间增长和10%的喜欢可能性增长。在智能设备音乐场景中,用户活跃时间增加了0.75%。

结论

神经网络是推荐系统的未来,ARGUS方法通过规模化Transformer模型,在推荐质量上实现了显著提升。我们已将其应用于排序和候选生成,取得了关键指标的显著增益。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值