文章汉化系列目录
SCI升级版 计算机科学2区SCI基础版 工程技术3区
摘要
随着社交网络中包含多媒体元素的新闻(如图片)的快速增长,跨模态学习对于准确检测虚假新闻至关重要。大多数先前的方法集中于通过开发复杂的神经网络来粗略地融合多模态信息来将图像和句子独立地嵌入到共享的嵌入空间中。然而,这些方法很少在执行多模态融合之前寻求图像和句子之间的细粒度连接,并且缺乏理解复杂的模态内和模态间关系的能力。此外,以往的研究主要集中在样本内部的模态内和模态间关系,而忽略了样本组间的动态性。针对这些问题,该文提出一种基于多模态交互图对比学习网络的虚假新闻检测方法.多模态交互网络由跨模态对齐和过滤机制组成,这些机制既考虑局部细粒度的跨模态交互又考虑全面的跨模态交互,同时还自适应地抑制不相关的跨模态交互。此外,我们发展了一个阶层式图对比学习框架,其使用完全及自我监督的对比学习方法来研究内部及联合模态表征之间的复杂联系。更准确地说,单峰图是在模态内水平上构造的,以探索包含在特定模态的类内和类间样本中的真实性信息。在跨模态水平上,构建多模态图以捕获类内和类间跨模态样本之间的相关性。此外,我们还通过对图结构施加扰动来增强模型特征表示的鲁棒性。在3个基准测试数据集上,所提方法均取得了上级的性能,表明了该方法的有效性.
图形摘要
关键词: 多模态·图·对比学习·假新闻
引言
移动的通信技术和移动的设备的迭代正在将社交媒体推向新的高度,内容的制作和分享也变得方便快捷。社交媒体在很大程度上取代了以报纸和杂志为代表的传统信息传播方式,成为个人获取新闻和分享观点的重要平台。社交媒体是一个开放、便捷、匿名的用户平台,人们可以根据个人兴趣自由表达自己的观点[1]。然而,由于缺乏有效的监管手段,制造和传播假新闻变得廉价,社交网络也成为假新闻的滋生地.虚假信息往往比真实信息传播得更快、更广泛[2],很可能破坏新闻的公信力,误导舆论,引起恐慌。因此,识别虚假新闻对于构建诚信新闻环境、维护社会稳定和谐具有重要意义。
早期的假新闻检测尝试主要是人工事实核查[3],包括基于专家和众包的人工事实核查。然而,由于这些方法耗时费力,用于检测假新闻的自动化技术已成为研究的重点。传统的假新闻自动检测算法大多采用特征工程的方法,根据新闻媒体内容设计手工制作的信息来训练机器学习模型;然而,此类方法耗时长,泛化能力差,难以通过手工制作的特征完全捕捉假新闻的特征。近年来,一些研究利用深度神经网络(DNN)技术从网络结构中提取高维特征来识别新闻文章中的偏见和错误信息,DNN自主识别复杂模式的能力有效弥补了传统假新闻检测方法的不足。基于文本特征的虚假新闻自动检测技术取得了重大进展。
然而,随着用户生成的在线内容的增长,社交媒体内容不再局限于纯文本;它通常还包含多种形式的丰富信息,如图像和视频。因此,虚假新闻检测策略的主要重点已转向通过采用深度学习技术从文本和视觉元素中自主提取多模态信息。在某些虚假信息的情况下,可以想象将真实的视觉内容与完全捏造的叙述相结合,或者将操纵的照片与准确的文字描述相结合。利用多模态特征分析是识别假新闻的关键。与文本信息相比,图像提供的视觉内容增强了文本材料并吸引了更多的注意力[4]。更重要的是,多模态之间存在互补和增强的关系,与单峰假新闻分析相比,多模态方法在处理社交媒体数据时更强大,也更有效。
近几年来,许多工作已经聚合了多模态特征来检测新闻和帖子中的异常。早期的研究[5-7]通过自然语言处理和图像表示技术为每种模态独立提取特征来实现多模态融合,随后将这些特征映射到共享特征空间以进行简单的级联。然而,上述方法很难克服不同模态之间较大的语义鸿沟。为此,一些研究人员尝试使用辅助任务来促进来自不同模态的特征的融合,这些辅助任务包括对抗性网络[8]、特征重构[9]、外部知识[10]和图像文本之间的语义相似性[11]。尽管这些研究取得了令人鼓舞的结果,但它们忽略了充分考虑模态之间的相互作用。文献中提出了几种基于注意力网络的方法[12,13]来对联运交互进行建模。
虽然以前的努力有助于多模态特征的学习,但这些研究中的大多数都忽略了以下问题:
大多数方法要么连接源自多个模态的特征[14],要么学习图像和文本之间的粗略相关性[5],大多忽略了模态之间的细粒度对齐,并且无法理解复杂的模态内和模态间关系,从而无法更好地提取真实信息。从直觉上看,个体对新闻真实性的评价可以被概念化为一个持续的、互动的认知过程,涉及对视觉和文本元素的解读。读者对图像中的视觉内容的理解通过识别区域和在它们之间建立的连接来促进。这一过程可以通过识别伴随文本中的上下文线索来确认。同样,当人们解读新闻文本时,他们往往会本能地在图像中寻找对应的区域,以相互验证他们的理解。图1描述了通过Twitter收集的几个案例。第一幅图像中的突出区域,如“路”、“车”、“树”等,与句子中的相应词语相匹配,因此我们倾向于相信新闻项的描述是真实的。但第二张图中“烟”的区域仅与句子中的“爆炸”一词相关,其他区域与词语之间并无对应关系,因此我们有理由怀疑这是一则图文不匹配的假新闻。因此,图像区域与句子词语之间存在着明显的关联,这可以被视为一种跨模态的交互。因此,通过反复检查区域和词语之间的关系,我们能够消除无关数据,并发现跨模态对齐的微妙指标,这可以用来评估新闻的合法性。
图1 Twitter上的图像-文本对展示了视觉图像和文本内容之间的细粒度跨模态交互。句子(a)中的红色突出显示的单词,例如“car”、“street "和”tree“,对应于具有红色边界的图像区域。虽然句子(B)中的单词“爆炸”在语义上与图像区域“烟”相关,但是对于具有黄色边界的图像区域,在句子中没有对应的单词。这表明新闻的文字词和图像区域之间存在匹配关系,但不是严格的对应关系
此外,以前的大多数研究主要集中在开发高效的模型,这些模型采用先进的深度学习技术来整合跨模态信息,以提高整体性能。具体地说,先前的研究试图在每个样本(图像-文本对)内的模态内和模态间水平上建立连接。而忽略属于相同和不同类的样本之间的学习关系。例如,当将假新闻的文本样本与真实新闻的文本样本进行比较时,观察到前者经常采用强调强烈情感极性的写作风格,或者采用带有讽刺意味的非常规表达。另一方面,与假新闻相关的图像样本往往具有更大的情感影响力和视觉吸引力。此外,特定事件的相关假新闻样本的集合也可能包含事件不变属性。因此,获取关于样本聚类所特有的独特特征的知识可以作为对不变特征的有价值的补充,同时增强可分离特征。此外,公共数据集的有限大小,不平衡数据的存在,以及复杂模型引入的各种参数都构成了过拟合的潜在风险。这也削弱了现有模型有效推广的能力。
为了解决上述问题,实现更有效的检测,本研究提出了一种创新的多模态网络检测假新闻,即,多模态交互和图形对比学习网络(MIGCL)。MIGCL包括三个阶段,即特征映射、模态内和模态间交互、以及图对比学习。在特征映射阶段,从图像中识别显著区域,提取局部区域特征,并从文本中提取词级语义特征。在模态内和模态间交互阶段,我们研究了如何显式地链接高度相关的模态表征,并将视觉区域和文本词语对齐,以学习细粒度的多模态表征。具体地说,考虑到图结构在复杂关系建模方面的优势,本文首先针对文本和图像构造了模态内图,针对文本,基于句子的依存树构造了词间句法感知的建模图,以挖掘句子内部的语义关系;并且对于图像,使用图结构来探索显著区域之间的语义和空间关系以建立图像。在此基础上,进一步构建了每个图像-文本样本的模态间图,以探索模态间的潜在联系。我们在内部和联合模式图上统一应用图卷积网络[15],通过调整不同节点之间的边权重来捕获不同模式内和之间的潜在和细粒度关系,从而对语义关系进行建模。最后,基于模态内推理得到的图像区域和文本词语的特征,通过跨模态对齐、过滤和全局上下文信息融合,学习局部和全局多模态表示,用于分类。
在图的对比学习阶段,我们对内部和中间图应用完全和自我监督的对比学习策略。目标是对信息的相关性和差异进行建模,以鼓励新闻。图1 Twitter上的图像-文本对实例展示了视觉图像和文本内容之间的细粒度跨模态交互。句子(a)中的红色突出显示的单词,例如“car”、“street "和”tree“,对应于具有红色边界的图像区域。虽然句子(B)中的单词“爆炸”在语义上与图像区域“烟”相关,但是在句子中没有用于具有黄色边界的图像区域的对应单词。这表明,在新闻的文本词和图像区域之间存在匹配关系,但不是同一类的更接近和更相似的严格对应,而对于新闻,不同的类标签在多模态嵌入空间中相距更远。具体地说,我们在模态内和模态间图上执行完全监督的对比学习,以学习类内和类间样本之间的相似性和可区分性。此外,考虑到噪声样本的影响和图先验结构的偏差,在[16]的启发下,我们将扰动应用于图结构,设计了一种自监督图对比学习方法,旨在探索更鲁棒的图结构,并为每个图推导出高质量的图表示。与单样本学习方法相比,两种多样本对比学习策略的联合应用具有更好的泛化能力和鲁棒性,能够更好地学习虚假新闻中的错误信息和偏见。(1)基于跨模态交互和图对比学习,提出了模态内和模态间层次网络以及类内和类间层次网络,从一个新的角度研究了多模态假新闻检测问题。该方法可以全面地探索潜在的微妙关系线索,有助于假新闻的跨模态特征表示。(2)我们提出了跨模态对齐和过滤模块。对齐模块在粒度级别上捕获视觉区域和文本单词之间的跨模态交互。过滤模块自适应地融合多模态特征,控制未对齐的区域-词配对的融合强度,并且促进图像和文本之间的更深的动态性,以保留来自两种模态的更全面的信息。(3)设计了一种新的层次图对比学习网络,通过完全自监督的对比学习策略,充分挖掘类内和类间信息的一致性和差异性,从而提取更准确的表征。(4)实验结果表明,算法具有有效性和实用性。
3 问题描述
有两种方法用于识别媒体中的假新闻:一种是帖子级分析,它涉及将单个帖子分类为假新闻、一般新闻或真实新闻 [5, 9, 10];另一种是事件级分析,它涉及将包含多个帖子的一篇新闻文章分类为假新闻、一般新闻或真实新闻 [8]。本文研究的是帖子级别的新闻,即判断单个新闻条目中的信息是否真实。具体而言,给定来自社交媒体的多模态新闻样本集 P = { ( T 1 , I 1 , Y 1 ) , … , ( T n , I n , Y n ) } P = \{ ( T_1, I_1, Y_1 ), \dots, ( T_n, I_n, Y_n ) \} P={(T1,I1,Y1),…,(Tn,In,Yn)},其中每个样本是一个三元组,包含文本、图像和标签, T i T_i Ti 表示文本模态, I i I_i Ii 是相应的视觉信息, Y i ∈ { R , N } Y_i \in \{ R, N \} Yi∈{R,N} 是图像–文本对的匹配标签(即谣言或非谣言),表示新闻是真实的还是假的, n n n 表示样本的数量。本文的目标是学习一个模型 f : P → Y f: P \to Y f:P→Y,将每个图像–文本对 ( T i , I i ) (T_i, I_i) (Ti,Ii) 分类为预定义的类别 Y i Y_i Yi。
4 方法论
本节详细介绍了所提出的 MIGCL 模型,如图2 所示。在第 4.1 节,我们首先介绍了从图像和文本模态中生成视觉区域特征和词汇特征的方法。在第 4.2 节,我们介绍了构建模态内图(视觉和文本图)的方法,描述了通过跨模态对齐和过滤模块进行细粒度交互的工作机制,并引入了融合图像和句子的全局上下文信息的过程。接着,在第 4.3 节,我们介绍了模态间交互网络,包括构建模态间图以及模态间特征的传递和融合方式。随后,在第 4.4 节,我们描述了所提出的模态内和模态间对比学习方法,包括两种学习策略:完全监督和自监督对比学习。最后,在第 4.5 节,我们介绍了预测层和损失函数的组成。
图 2 所示为所提出的多模态交互与图对比学习网络(MIGCL)在假新闻检测中的整体框架。通过编码器获得的文本和视觉表示用于构建视觉图(融合语义和位置关系)、文本图(整合语义和句法依赖关系)以及跨模态图。图卷积网络(GCN)被用来探索模态内外的潜在语义关联。视觉区域和文本词汇之间的细粒度交互通过跨模态对齐和过滤模块实现。上下文融合模块实现了图像和句子的整体上下文信息与局部信息的融合。对比学习被用于建模信息之间的相关性和差异。