摘要翻译:
社交网络是全球范围内分享内容的重要在线渠道之一。在这种背景下,预测一篇帖子在互动方面是否会产生影响,对于推动这些媒体的盈利利用至关重要。在现有研究中,许多方法通过利用帖子的直接特征来解决这一问题,这些特征通常与文本内容以及发布该帖子的用户相关。
在本文中,我们认为互动的增加还与另一个关键因素相关,即社交媒体用户发布的帖子之间的语义关联。因此,我们提出了一种基于图神经网络(Graph Neural Network)的解决方案——TweetGage,该方法基于一种全新的图模型来表示帖子之间的关系,以预测用户互动情况。
为了验证我们提出的方法,我们专注于 Twitter 平台,并进行了全面的实验,提供了其有效性的证据。
相关工作部分翻译:
社交网络中的用户参与度(User Engagement)概念已在文献中得到了广泛研究[20, 41, 38]。由于 Facebook、Twitter 和 TikTok 等社交媒体的广泛流行,许多公司在这些平台上不断加大内容创建和分发的投资。然而,评估这些投资的效果并非易事,但对有效创建社交平台上的帖子而言至关重要。用户参与度是衡量帖子影响力的最常用指标之一[41]。
根据不同的社交网络,用户可以通过多种方式与帖子互动,因此衡量参与度的方法也各不相同[20]。例如,在 Twitter 上,用户可以点赞、转发和回复帖子,这些行为被用于构建用户参与度的衡量指标[38, 32, 31, 19]。在本研究中,我们决定使用[19]提出的公式来计算参与度,详细内容将在第3节中介绍。
由于研究人员和企业对社交网络用户参与度研究的高度兴趣,许多关于预测参与度的方法相继被提出[14, 5, 6, 28]。许多方法依赖于机器学习和深度学习算法。从利用网络特征的角度来看,现有研究可分为两大类:(i) 不考虑基于图的特征的参与度预测[42, 44, 14, 29, 34, 4],以及 (ii) 考虑基于图的特征进行预测[19, 46, 37, 18, 21, 2]。
在第一类方法中,研究人员利用用户个人资料特征、推文的点赞、转发和评论数量等推文表现数据,以及文本分析。例如,在[44]中,作者分析了一组反映用户行为、推文统计和文本语义(通过 BERT 进行建模)的特征,并使用 LightGBM(轻量级梯度提升机)和多层感知机(MLP)在监督任务中进行预测。结果表明,用户与推文的互动主要基于文本语义和内容,而推文作者的受欢迎程度在评论和提及方面有所作用。在[42]中,研究人员研究了 COVID-19 相关推文中的错误信息与用户参与度之间的关系,参与度通过点赞和转发总数进行衡量,并根据中位数将其标记为高或低参与度。他们从推文文本中提取了诸如单词数量、词性标注等特征,但未使用深度学习嵌入技术。结果数据集被输入到梯度提升、多项式朴素贝叶斯和随机森林分类器中,取得了较好的性能。然而,这类方法未考虑用户和帖子之间的交互,而这些交互正是社交网络的核心,蕴含着可以提高分类效果的重要信息。
在第二类方法中,研究人员不仅使用前述特征,还结合从用户及相关推文中提取的基于图的特征。例如,在[19]中,研究人员预测哪些推文将在 Twitter 上产生最高的用户参与度。他们将这一问题建模为协同排序任务,并利用用户-项目-推文的交互数据,提取诸如用户历史平均参与度、用户好友与关注者数量比率等特征,并通过归一化折扣累计增益(NDCG)优化评分函数,以直接提高用户参与度。在[18]中,研究人员微调了 DistilBERT 模型,以获取推文的文本嵌入,并使用高效流形密度估计器(Efficient Manifold Density Estimator)将推文文本表示为固定大小的压缩特征。此外,他们还加入了基于有向图的社区检测特征,以捕捉用户之间的复杂交互,研究发现大型社区通常具有较低的互动强度。随后,这些特征被输入到浅层前馈神经网络,以预测推文的参与度。
在[37]中,研究人员提出了“人-内容网络分析”(PCNA)框架,该框架分析社交网络上的人类动态,使用了三类特征:(i) 社区特征,如社区规模、用户跟随的活跃

最低0.47元/天 解锁文章
2215

被折叠的 条评论
为什么被折叠?



