让语言模型更懂你:Softmax Direct Preference Optimization 在推荐系统中的应用

推荐系统旨在根据用户的偏好数据预测个性化的排名。随着语言模型(LM)的兴起,基于 LM 的推荐系统因其丰富的世界知识和强大的推理能力而受到广泛关注。大多数基于 LM 的推荐系统将历史交互转化为语言提示,将正向项目作为目标响应,并使用语言建模损失来微调 LM。然而,目前的优化目标未能充分利用偏好数据,也未针对个性化排名任务进行优化,这阻碍了基于 LM 的推荐系统的性能。

受人类偏好对齐中直接偏好优化 (DPO) 的最新进展以及 softmax 损失在推荐中的成功的启发,我们提出了 Softmax-DPO (S-DPO) 来将排名信息灌输到 LM 中,帮助基于 LM 的推荐系统区分首选项目和负向项目,而不是仅仅关注正向项目。

具体来说,我们将用户偏好数据中的多个负向项目纳入考虑,并设计了一个针对基于 LM 的推荐系统量身定制的 DPO 损失的替代版本,该版本与 softmax 采样策略相关联。从理论上讲,我们将 S-DPO 与负采样上的 softmax 损失联系起来,发现它具有挖掘难负样本的副作用,这确保了它在推荐任务中的出色能力。从经验上讲,在三个真实世界数据集上进行的大量实验表明,S-DPO 能够有效地模拟用户偏好,并进一步提高推荐性能,同时缓解 DPO 的数据似然下降问题。

为什么语言模型在推荐系统中表现不佳&#x

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

步子哥

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值