一、摘要
本文介绍亚马逊牵头2025年3月发表的论文《Rec-R1: Bridging Generative Large Language Models and User-Centric Recommendation Systems via Reinforcement Learning》

译文:
我们提出了Rec - R1,这是一个通用的强化学习框架,它通过闭环优化将大语言模型(LLMs)与推荐系统联系起来。与提示和监督微调(SFT)不同,Rec - R1直接利用来自固定黑盒推荐模型的反馈来优化大语言模型的生成,而不依赖于来自诸如GPT - 4o等专有模型的合成监督微调数据。这避免了数据提炼所需的大量成本和精力。为了验证Rec - R1的有效性,我们在两个具有代表性的任务上对其进行评估:产品搜索和序列推荐。实验结果表明,Rec - R1不仅始终优于基于提示和监督微调的方法,而且即使与诸如BM25这样简单的检索器一起使用,也能在强大的判别基线之上取得显著提升。此外,与监督微调不同,Rec - R1保留了大语言模型的通用能力,监督微调常常会损害模型的指令跟随和推理能力。这些发现表明,Rec - R1是一种有前途的基础,可用于持续的特定任务适配而不会发生灾难性遗忘。

最低0.47元/天 解锁文章

被折叠的 条评论
为什么被折叠?



