- 博客(18)
- 收藏
- 关注
原创 Does Multimodality Improve Recommender Systems as Expected? A Critical Analysis and Future Direction
2025 Arxiv文章主要内容:系统评估了的实际效果,提出了一个结构化的评估框架,并通过大量实验对比了多模态模型与传统推荐模型的性能,揭示了多模态信息在推荐系统中的真实价值与局限性。
2025-11-26 16:03:40
579
原创 【AAAI‘2025】MENTOR: Multi-level Self-supervised Learning for Multimodal Recommendation
不同模态(如图像和文本)具有不同的特征分布和语义空间,直接融合这些异构信息存在困难。为此,近年来研究开始采用自监督学习(SSL)来进行跨模态对齐(cross-modal alignment),即让不同模态的表示在语义上更加一致。
2025-11-19 11:14:00
723
原创 【WWW‘2023】MMSSL:Multi-Modal Self-Supervised Learning for Recommendation
目标:在 没有额外标签 的情况下,为每个模态 m 生成一张 稠密且语义合理的用户-物品交互图 ˆAᵐ,从而补充原始极端稀疏的 A。(例如:用户“你”的视觉偏好画像,与“另一个用户”的整体画像或视觉偏好画像,应该是不同的。(3)通过余弦相似度计算模态特定的用户 - 物品关系矩阵,也就是学习在特定模态m下用户u与物品i的交互概率。(例如:用户“你”的整体画像,与“你”在“视觉模态”下的偏好画像,应该是相似的。+多模态视图表示(也就是,对于每个模态m,通过对用户交互过的物品的模态特征进行聚合,得到的)
2025-11-18 11:45:22
866
原创 【AAAI‘2025】Modality-Independent Graph Neural Networks with Global Transformers forMultimodal Recomm
现有方法为不同模态设置的GNN中的K相同,但对不同模态来说不同的K性能不同,如Figure1——>为不同模态设置最优的K,更好地捕捉每个模态的局部信息——>但实验发现这个K通常是1-2,无法捕捉更深的信息——>引入Sampling-based Global Transformer来帮助捕捉全局信息,如Figure2。
2025-11-11 23:15:56
903
原创 【SIGIR‘2023】LightGT: A Light Graph Transformer for MultimediaRecommendation
传统推荐系统主要依赖协同过滤(CF)方法,但多媒体推荐通过引入用户偏好与内容特征(如视觉、音频、文本)之间的关联,能够提升推荐效果。(1)特征提取与推荐任务脱节——>从已有特征中提炼与推荐相关的信息,而非直接使用预训练提取的原始特征。(2)忽视用户历史交互中物品之间的关联——>建模用户历史交互物品之间的关联,以挖掘用户偏好的内容特征。(3)Transformer 模型在推荐系统中效率低下——>设计轻量化的 Transformer 架构,在保证推荐效果的同时提升训练和推理效率。
2025-11-11 16:52:24
1057
原创 【TMM‘2022】SLMRec:Self-Supervised Learning forMultimedia Recommendation
模型未能挖掘多模态之间的深层语义关联——
2025-11-05 09:31:04
705
原创 【WWW‘2023】BM3:Bootstrap Latent Representations for Multi-modalRecommendation
基于GNN的模型(如MMGCN、GRCN、DualGNN、LATTICE)通过构建用户-物品交互图或辅助图(如用户-用户图、物品-物品图)来增强表示学习。虽然取得了先进的性能,但在大规模图数据上面临效率和扩展性挑战:(1)负采样带来的效率与噪声问题大多数模型使用BPR损失,需从未观察到的交互中随机采样负例。负采样在大规模图中:(2)辅助图结构带来的内存与计算负担许多方法依赖辅助图结构(如用户-用户图、物品-物品图)来增强表示。构建和训练这些图结构:动机:受到自监督学习(SSL)的启发,SSL在CV、NLP
2025-11-04 16:00:03
963
原创 【SIGIR‘2022】MMGCL:Multi-modal Graph Contrastive Learning for Micro-videoRecommendation
在每个模态图中随机丢弃部分边,生成不同的子图,从图结构层面创造多样性,每个增强后的视图都是原图的一个子图,增强模型对图结构的鲁棒性。这个M1是一个掩码向量,这个掩码操作是将目标模态的所有节点特征替换为一个随机初始化的嵌入向量。随机遮蔽某一模态的用户/物品特征(如仅遮蔽文本模态),迫使模型在其他模态上学习更强的表示。传统的对比学习使用随机采样的负样本,而这些样本往往过于“简单”。地学习用户对不同模态的细粒度偏好,从而提升推荐效果。核心思想:通过多模态特定的图增强和对比学习,来。目标:为了不偏离推荐的主任务,
2025-11-04 14:13:45
363
原创 【IPM‘2020】MGAT: Multimodal Graph Attention Network for Recommendation
本文在 GNN 中引入门控注意力机制,在图传播过程中动态控制不同模态信息的重要性,从而实现更细粒度的用户偏好建模。
2025-11-03 15:36:41
518
原创 【MM‘2021】LATTICE
文章原文对上图的解释,说明物品间的语义关系(如视觉上的相似)有利于推荐。这些方法的共同点是:将多模态特征作为商品的辅助信息,但未显式建模商品之间的语义关系。这些方法多用于节点分类、链接预测等任务,在推荐系统中,商品-商品关系尚未被充分探索。
2025-11-03 13:45:32
712
原创 【MM‘2019】MMGCN: Multi-modal Graph Convolution Network forPersonalized Recommendation of Micro-video
随着短视频平台(如抖音、快手)的兴起,个性化推荐成为提升用户体验的关键技术。与传统推荐对象(如商品、音乐、图片)不同,短视频包含视觉、音频、文本等多种模态信息,如何有效融合这些异构信息并捕捉用户偏好,成为推荐系统研究的新挑战。尽管已有一些多媒体推荐方法尝试融合多模态信息,但它们普遍存在以下问题:MMGCN 在协调表示基础上,进一步引入ID嵌入作为跨模态桥梁,增强模态间信息传播。GCN 已被用于推荐系统(如NGCF、GraphSAGE),但大多针对单一模态或仅建模用户-物品交互,未考虑多模态内容差异和模态特定
2025-11-01 23:26:25
801
原创 【AAAI‘2016】VBPR: Visual Bayesian PersonalizedRanking from Implicit Feedback
关键词:多模态推荐。
2025-10-10 20:30:41
472
原创 【自编码器】AutoRec: Autoencoders Meet Collaborative Filtering
协同过滤是推荐系统中的核心技术之一,其目标是通过用户对物品的评分数据(如电影评分)来预测用户可能喜欢的物品。Netflix 竞赛推动了多种 CF 模型的发展,其中最具代表性的是矩阵分解(Matrix Factorization, MF)和邻域模型(Neighborhood Models)。尽管这些方法取得了成功,但仍存在一些局限性,如线性假设、参数多、训练效率低等。近年来,神经网络在视觉和语音任务中表现出色,但在 CF 中的应用还较少。
2025-09-09 15:43:47
774
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅