Large Language Models are Learnable Planners for Long-Term Recommendation

最新推荐文章于 2025-11-24 18:29:32 发布

UnknownBody

最新推荐文章于 2025-11-24 18:29:32 发布

阅读量268

点赞数

CC 4.0 BY-SA版权

分类专栏： LLM Daily Recommendation 文章标签：语言模型人工智能自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/c_cpp_csharp/article/details/139775401

LLM Daily 同时被 2 个专栏收录

1689 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

46 篇文章

订阅专栏

本文是LLM系列文章，针对《Large Language Models are Learnable Planners for Long-Term Recommendation》的翻译。

大型语言模型是长期推荐的可学习规划器

摘要
1 引言
2 相关工作
3 前言
4 方法
5 实验
6 结论

摘要

在建议中，对眼前和长期利益进行规划变得越来越重要。现有的方法通过最大化长期推荐的累积奖励来应用强化学习（RL）来学习规划能力。然而，当从头开始训练RL模型时，推荐数据的稀缺性带来了挑战，如不稳定性和过拟合的易感性，导致性能次优。有鉴于此，我们建议利用大型语言模型（LLM）在稀疏数据上的卓越规划能力进行长期推荐。实现这一目标的关键在于制定一项指导计划，遵循加强长期参与的原则，并以个性化的方式将该计划建立在有效和可执行的行动基础上。为此，我们提出了一个双层可学习LLM规划器框架，该框架由一组LLM实例组成，并将学习过程分解为宏观学习和微观学习，分别学习宏观指导和微观个性化推荐策略。大量实验验证了该框架有助于LLM的长期推荐规划能力。我们的代码和数据可以在https://github.com/jizhi-zhang/BiLLP上找到。

1 引言

2 相关工作

3 前言

4 方法

5 实验

6 结论

在这项工作中，我们探索将大型语言模型（LLM）的规划能力集成到建议中，以优化长期参与。为了弥合预训练场景和推荐场景之间的差距，我们提出了一种称为BiLLP的双层可学习LLM规划框架，其中使用分层机制将学习过程分为宏观学习和微观学习。这种分层方法提高了学习效率和适应性

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

UnknownBody 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。