Multi-modal Graph Contrastive Learning for Micro-video Recommendation

原创已于 2023-03-05 15:00:16 修改 · 1.4k 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习 #人工智能

于 2023-03-05 11:20:40 首次发布

机器学习同时被 2 个专栏收录

27 篇文章

订阅专栏

论文阅读

15 篇文章

订阅专栏

文章提出了针对MMGCN模型的改进策略，通过多任务训练结合评分预测和对比学习，以处理各模态数据的不平衡问题。同时，引入了模态Masking和边丢弃的数据增强方法，以及挑战负样本的生成方式，旨在确保模型能从不同模态中有效地学习用户和物品的表示，即使在某一模态数据不足或主导时也能准确捕获用户兴趣。

部署运行你感兴趣的模型镜像

模型总览如下：

解决问题：同种重要性对待每种模态，可能使得得到的特征表示次优，例如过度强调学习到的表示中的特定模态。以MMGCN为例，下图为MMGCN模型总览。

如上图所示MMGCN在每种模态上构建用户-物品二部图，然后在每一个模态二分图上进行GCN，将结果与其他两个特征（id，原始特征）进行combination，得到该模态的representation（因为各模态所处语意空间不同，其实这一步做的是collaboration fusion，约束为不变量id），论文中将各模态的represention做了sum得到最终的用户/物品特征表示。这就可能存在一个问题，当训练集中的数据因过少等原因，无法表现出用户真实的兴趣，某一模态占有较高的地位时，用这些数据训练模型，模型可能就会“偷懒”，给这个模态较大的权重就可以得到很好的结果。那该怎么办的？根据多模态一致性准则（多模态数据共享某些一致的语义信息），去除某一个模态应不影响用户主要意图，用剩下的模态去训练久好了，那该怎么实现呢？？这就是这篇论文的主要贡献，请继续阅读。

本文贡献：

一、本文采用了一个多任务训练策略，将最优化评分任务目标和对比学习目标相结合。损失函数如下，共由两部分组成：预测评分和实际评分之间的差距以及对比学习损失（对于每一个用户-物品对，又分别将用户/物品做为锚，所以存在两个对比学习损失）：