十亿参数推荐Transformer的规模化实践

最新推荐文章于 2025-12-07 19:44:07 发布

原创最新推荐文章于 2025-12-07 19:44:07 发布 · 552 阅读

·

7

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#transformer #深度学习 #人工智能 #推荐系统 #Transformer #机器学习 #程序那些事

推荐系统Transformer模型的十亿参数规模化实践

推荐系统工作原理

推荐问题的数学定义很简单：为每个用户选择他们可能喜欢的物品。但存在几个挑战：

物品目录庞大（高达数十亿物品）
用户数量庞大且兴趣不断变化
用户与物品的交互非常稀疏
难以准确定义用户偏好

为解决这些问题，需要利用非平凡的机器学习模型。神经网络是强大的机器学习工具，特别适用于处理大量非结构化数据。

推荐系统架构

推荐生成时间严格受限，因此通常采用多阶段架构：

召回阶段：使用轻量模型从整个目录中选择相对较小的候选集
排序阶段：对候选集运行更复杂的模型，利用额外信息和更密集的计算

双塔神经网络架构在召回阶段非常流行，它将用户和物品分别编码为向量表示，并使用点积计算相似度。

ARGUS：自回归生成用户序列建模

ARGUS是我们训练推荐Transformer的新方法。我们观察用户的完整匿名历史记录，包括所有交互而不仅仅是正面交互。

两个学习任务

下一个物品预测
基于历史和当前交互上下文，预测用户将与哪个物品交互：P(物品 | 历史, 上下文)。如果历史仅包含推荐流量，模型学习模仿日志策略；如果包含自然流量，还能获得关于用户的更基础知识。

反馈预测
基于历史、当前上下文和物品，预测用户反馈：P(反馈 | 历史, 上下文, 物品)。此任务专注于获取关于用户偏好和兴趣的基础知识。

模型实现与优化

简化ARGUS

完整ARGUS方法中，每个交互由三个标记表示，导致序列长度膨胀。为加速训练，我们创建了简化版本，将每个三元组压缩为单个向量。

部署策略

我们选择离线双塔排序作为首次部署方案：

使用ARGUS每日重新计算用户和物品向量
用户偏好通过用户与物品的点积确定
针对与最终排序模型相同的成对排序任务进行微调

实验结果

我们在音乐流媒体服务中进行了实验，构建了包含超过3000亿次收听记录的庞大数据集。

规模扩展结果

我们测试了四种不同规模的Transformer配置，参数从320万到10.07亿不等。每个架构规模的提升都带来了质量增益，无论是在预训练还是微调阶段。

实施效果

ARGUS模型实现了：

用户历史长度增加8倍
编码器规模增加10倍
总收听时间显著提升
喜欢可能性大幅增加

在"陌生"设置中，ARGUS实现了12%的总收听时间增长和10%的喜欢可能性增长。在智能设备音乐场景中，用户活跃时间增加了0.75%。

结论

神经网络是推荐系统的未来，ARGUS方法通过规模化Transformer模型，在推荐质量上实现了显著提升。我们已将其应用于排序和候选生成，取得了关键指标的显著增益。
更多精彩内容请关注我的个人公众号公众号（办公AI智能小助手）或者我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号（网络安全技术点滴分享）

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。