LLM4Rec:推荐系统的协作大型语言模型
项目介绍
LLM4Rec 是一个结合了基于 ID 的范式和基于 LLM(Large Language Model)的范式的推荐系统。该系统由弗吉尼亚大学 VAST LAB 和 LinkedIn 的研究人员共同开发,旨在充分利用两种范式的优势,为推荐系统提供更加精准和高效的推荐。
LLM4Rec 通过一种名为“相互正则化的预训练与软硬提示”的策略,实现了在异构用户/物品标记的推荐定向语料库上的语言建模。此外,项目还提出了一种面向推荐系统的微调策略,使得在不产生幻觉的情况下,能够有效地生成以整个物品空间为候选集的多个物品推荐。
项目技术分析
LLM4Rec 的技术架构主要包括以下几个部分:
-
GPT4Rec Tokenizer 类:这个类通过引入用户/物品标记,将词汇分解为标记。如果原始词表的词汇量为 $N$,对于具有 $I$ 个用户和 $J$ 个物品的系统,用户 ID 和物品 ID 被视为原子标记,并在词汇表的基础上进行扩展。
-
GPT4Rec Base Model 类:这个基类扩展了原始 GPT2 的词汇表,加入了用户/物品 ID 标记。在训练过程中,原始词汇表和变压器权重被冻结,只有用户/物品 ID 嵌入可以更新。
-
Collaborative GPT 类:这个类定义了协作 GPT,用于在推荐系统中进行语言建模(即下一个标记预测)。它通过以“用户_i 与 ... 互动过”的形式提供提示,对互动过的物品序列进行语言建模。
-
Content GPT 类:这个类定义了内容 GPT,它对用户/物品内容进行语言建模。以亚马逊评论数据为例,它将“用户_i 为物品_j 编写以下评论”作为提示,对主要评论文本进行语言建模。
项目技术应用场景
LLM4Rec 可广泛应用于以下场景:
- 电子商务推荐:在电子商务平台上,LLM4Rec 可以根据用户的浏览和购买历史,提供个性化的商品推荐。
- 社交媒体内容推荐:社交媒体平台可以利用 LLM4Rec 为用户推荐他们可能感兴趣的文章、视频或其他内容。
- 音乐和视频流媒体推荐:流媒体服务可以使用 LLM4Rec 推荐音乐、视频等,根据用户的听歌或观看历史进行个性化推荐。
项目特点
LLM4Rec 的主要特点包括:
- 创新的混合范式:结合了基于 ID 的推荐系统和基于 LLM 的推荐系统,实现了两种范式的优势互补。
- 相互正则化的预训练:通过软硬提示策略,实现了对推荐定向语料库的有效语言建模。
- 面向推荐系统的微调策略:避免了生成推荐时的幻觉问题,提供了更加准确的推荐。
- 灵活的模型架构:可以根据不同的应用场景和需求,调整模型的结构和参数。
LLM4Rec 作为一个创新的推荐系统项目,不仅提供了高效的推荐算法,还为推荐系统领域的研究和实践带来了新的视角和思路。对于研究人员和开发人员来说,这是一个值得关注的开源项目。
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考