论文笔记-Harnessing Multimodal Large Language Models for Multimodal Sequential Recommendation-AAAI‘2025

最新推荐文章于 2025-11-24 16:27:34 发布

原创

最新推荐文章于 2025-11-24 16:27:34 发布 · 1.4k 阅读

24 ·

CC 4.0 BY-SA版权

文章标签：

#论文阅读 #语言模型 #人工智能 #推荐算法 #深度学习 #论文笔记

Harnessing Multimodal Large Language Models for Multimodal Sequential Recommendation

AAAI-25

论文地址：https://arxiv.org/abs/2408.09698

代码仓库：https://github.com/YuyangYe/MLLM-MSR

Abstract

研究现状

大型语言模型(Large Language Models）的最新进展在推荐系统(RSs)领域显示了巨大的潜力。大多数现有的研究都集中在将用户行为日志转换为文本提示，并利用提示调优等技术来启用大型语言模型来完成推荐任务。
现有领域存在的问题 ⚠️重点关注

最近的研究兴趣在多模态推荐系统中增长，该系统使用模态融合技术集成来自图像、文本和其他来源的数据。这对现有的仅依赖文本模态信息的基于llm的推荐范式提出了新的挑战。此外，尽管已经出现了能够处理多模态输入的多模态大语言模型(Multimodal Large Language Models, mllm)，但如何为mllm配备多模态推荐功能在很大程度上仍未得到探索。
针对现有问题，你的解决方案（宏观的描述） we propose … introduce ⚠️重点关注

本文提出了多模态大语言模型增强的多模态顺序推荐(MLLM-MSR)模型。为了捕获动态用户偏好，设计了一种两阶段的用户偏好汇总方法。
具体解决方案是什么… （具体的细节）

首先利用基于mllm的项目摘要器提取给定项目的图像特征并将图像转换为文本。然后，基于基于llm的用户汇总器，采用循环用户偏好汇总生成范式来捕获用户偏好的动态变化(受RNN启发)。最后，为了使MLLM能够完成多模态推荐任务，提出使用监督微调(SFT)技术对基于MLLM的推荐器进行微调。
实验结果，超过SoTA多少

对各种数据集（MicroLens、 Amazon-baby 、Amazon-game）的广泛评估验证了MLLM-MSR的有效性，展示了其捕获和适应用户偏好不断变化的动态的卓越能力。

Introduction

挑战

将多模态大型语言模型(MLLM)集成到多模态顺序推荐系统中会引入一系列值得注意的挑战。

首先，处理顺序多模态数据的固有复杂性和计算需求，特别是多个有序图像输入，极大地限制了这些系统的可扩展性和效率。

此外，传统的MLLM在理解用户交互和偏好的时间动态方面往往表现出局限性，特别是在顺序多模态交互的背景下。这个关键的限制削弱了系统准确捕捉和反映用户兴趣随时间变化的能力。

此外，针对特定推荐场景微调多模态大语言模型(MLLM)，同时避免过度拟合并保持预训练期间获得的泛化性，这是一个重大挑战。这些障碍强调了对创新方法的需求，这些方法可以导航多模态顺序数据的复杂性，确保可以有效地利用MLLM来增强推荐系统。

解决方案

为了应对这些挑战，本文介绍了多模态大语言模型增强的多模态顺序推荐(MLLM-MSR)，这是一种利用MLLM的能力来有效增强和集成多模态项目数据的开创性方法。

具体来说，引入了一种多模态用户偏好推断方法，该方法将传统的多模态融合与序列建模技术与多模态模型相结合。

最初，我们使用MLLM将每个项目的视觉和文本数据转换为连贯的文本描述，并通过初步研究证明了信息的完整性。

随后，利用通过MLLM处理的丰富项目信息，我们开发了一种创新的基于llm的循环方法来推断用户偏好，捕捉这些偏好的时间动态。该方法通过利用大型语言模型优越的文本处理能力，解决了上述处理顺序图像输入的挑战，并通过提供详细的用户偏好，与传统的基于表示的方法相比，提高了推荐的可解释性。

此外，我们对MLLM进行了微调，利用精心设计的一组提示，将丰富的项目数据、推断的用户偏好和用户-项目交互的真实值集成在一起，使其发挥推荐功能。在开源MLLM上的监督微调(SFT)过程使模型具有准确匹配用户偏好与潜在项目的能力，从而增强了推荐的个性化和准确性。

为了验证MLLM-MSR的有效性，在来自不同领域的三个公开可用数据集（MicroLens、 Amazon-baby 、Amazon-game）上进行了广泛的实验，证实了方法的优越性能。

主要贡献

第一次尝试微调多模态大型模型来解决顺序多模态推荐的挑战，其中提出的微调策略在推荐性能方面取得了显着改善。
引入了一种新的基于mllm的图像总结方法，以循环地总结用户在多模态上的偏好，促进对用户交互和兴趣随时间的深入理解。
提出的方法在各种数据集上得到了广泛的验证，证明了其在提高建议的准确性和可解释性方面的有效性。

Related Work

Multimodal Sequential Recommendation

多模式信息增强SRs的发展利用了额外的上下文信息来提高推荐质量。SRs中的融合方法分为早期、晚期和混合方法。

早期的融合技术涉及侵入性方法，在输入层面整合各种模式，通过连接和门控等技术增强初始特征表示(Tang and Wang 2018;Sun et al. 2019;Lei, Ji, and Li 2019)。此外，非侵入性早期融合采用注意机制在处理前合并多个属性(Rendle et al. 2019;Liu et al. 2021a)。

相比之下，后期融合在最后阶段之前合并来自不同模块的特征序列，如(Zhang et al. 2019;Ji et al. 2020;Du et al. 2023)。

混合融合方法通过评估模态间关系，灵活地将模态融合和顺序建模结合起来，提供了多用途的融合策略(Zhao, Lee, and Wu 2020;Hu et al. 2023)。

LLM for Recommendation

将大型语言模型(Large Language Models, llm)集成到推荐系统中受到BERT (Devlin et al. 2018)和GPT-3 (Brown et al. 2020)等基础模型的深刻影响，这证明了大型语言模型在处理大量文本数据以深入理解用户行为方面的潜力。这一基础已经被BERT4Rec (Sun等人，2019)等后续模型和RLMRec (Ren等人，2024)等创新模型所扩展，RLMRec通过分析详细的用户-项目交互来定制大型语言模型功能，以生成个性化的、上下文感知的建议。

在目前的情况下，推荐系统中的大模型应用分为三种主要方法:基于嵌入的、基于令牌的和直接模型应用(Wu et al. 2023;Cao et al. 2024)。

基于嵌入式的应用，如(Cui等人，2022;Liu et al. 2024b)使用llm从项目和用户数据中提取丰富的特征表示，增强系统对用户偏好的理解。

基于令牌的方法，在(Zhai et al. 2023)等工作中得到了强调，专注于生成捕捉语义含义和潜在用户偏好的令牌，并将这些数据集成到推荐逻辑中。最后，直接模型应用(Hou et al. 2024;Geng et al. 2022)涉及使用llm作为端到端解决方案，其中模型根据用户查询和配置文件直接生成建议，提供简化且可能更强大的系统架构。

此外，还出现了基于多模态大模型的推荐框架，旨在处理涉及多模式信息的场景。这些框架集成和处理不同的数据类型，如图像、文本和视频，以提高推荐系统的准确性和用户体验(Liu et al. 2024c;Zhang et al. 2024a)。

Preliminary

问题定义

顺序多模态推荐问题的问题表述。本工作中使用的数据集包含用户和项目之间的交互记录。给定一个用户u，让我们首先定义u的历史用户行为序列为 $S_u = [i^1_u，…i^n_u]$ ，其中， $I^i$ 表示用户通过点击、购买、观看等行为与之进行交互的第i项，n表示用户行为序列的长度。此外，每个项目对应一个文字描述W和一个图像I(例如，产品图，视频封面)。因此，我们的问题可以表述如下。