【paper阅读】Retrieval-Augmented Hypergraph for Multimodal Social MediaPopularity Prediction

最新推荐文章于 2025-04-24 11:29:13 发布

原创最新推荐文章于 2025-04-24 11:29:13 发布 · 1.1k 阅读

28 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习

发表在KDD2024

Background：

随着社交媒体平台上如 TikTok、Triller 和 Instagram 等多模态用户生成内容（UGC）的激增，预测 UGC 的流行度变得至关重要，这对许多现实应用如在线广告、推荐、政府识别潜在舆论危机等都有重要意义。

Motivation:

现有方法在预测 UGC 流行度时，主要关注单个 UGC 的有限上下文信息，忽略了从相关 UGC 中挖掘有用知识的潜在益处。
然而，在现实社交媒体中，即使是相同的 UGC，由于源用户的粉丝分布不同，其社交反馈也可能差异巨大，因此建模单个 UGC 提供的知识有限，可能导致预测错误。
人类具有通过观察相关事物来学习的能力，这启发作者通过检索相关 UGC 并利用其有意义的知识来增强 MSMPP 任务。

Challenges:

计算目标 UGC 与相关实例之间的相似性复杂，需要评估多模态相似性以识别 Top - K邻实例，且现有检索方法主要关注单模态知识编码和检索，无法有效利用多模态数据及其复杂相关性，同时社交媒体上的 UGC 通常包含大量噪声，如文本和视觉内容的差异以及不完整的模态信息。
目标 UGC 与检索实例之间的相关性通常是高阶的，现有方法通过求和或注意力操作来建模相关实例的邻域知识，无法有效建模这种复杂的高阶相关性。

Contributions:

• We propose RAGTrans, pioneering an aspect-aware retrieval augmented pipeline that bridges target multimodal UGCs and relevant instances to enhance the multimedia social media popularity prediction (MSMPP) task.

• We propose a bootstrapping hypergraph transformer that extends information aggregation to the multimodal mixture. Intra-modal and inter-modal propagations are designed to capture correlations within and across modalities as well as fine-grained and aligned UGC representations.

• We conduct extensive experiments on real-world multimodal datasets to evaluate RAGTrans. The results demonstrate that RAGTrans can effectively learn multimodal representations from visual and textual UGC modalities, and achieve up to a 20% gain over strong baseline approaches on the ICIP dataset. The code for reproducing the results is available at https://github.com/CZTAO12/RAGTrans

Related Works

Feature-engineering
deep-learning based

Methodology

问题定义:

C = {𝑐1, · · · , 𝑐𝑁 } 表示一系列社交媒体中的 user-generated content (UGC)

这些UGC包含 文本描述(t)与图片(v).

问题的目标是学习3种表示[ 文本表征，图片表征，用户表征]

真实流行度是用户对未来的总交互数，如转发、点赞和评论的数量。

超图的构造是由目标 UGC 在内存库中检索到的与其最接近的实例（对应超图中的点）构成，超边表示 UGC 的aspect information（如用户、类别）。

方法框架：

方法模块1:Aspect - aware UGC Retrieval

构建内存库：构建包含大量 UGC 的视觉、文本和方面信息的内存库，由 <图像、文本、方面> 三元组组成。
检索相关实例：将目标 UGC 作为查询，内存库中的每个 UGC 作为文档，通过计算方面信息的相似性分数，使用搜索引擎技术（elasticsearch）和排名函数（如 BM25）从内存库中检索 Top - K个最相关的 <图像、文本、方面> 三元组实例