论文笔记:基于共注意网络的多模态假新闻检测

整理了AAAI2023 Multimodal Fusion with Co-Attention Networks for Fake News Detection)论文的阅读笔记

背景

  具有文字和视觉内容的假新闻具有更好的讲故事能力,人们很容易被这样的假新闻欺骗。现有的多模态方法的一个缺点是不能有效地融合多模态特征。它们只是简单地连接单模态特征,而不考虑模态间的关系。本文提出了一种新的多模态共同关注网络(MCAN),以更好地融合文本和视觉特征,用于假新闻检测。
在这里插入图片描述

模型

MCAN框架

  本文所提出MCAN框架有以下几点优势或创新:1、MCAN是仅基于内容的,这有助于降低检测成本和进行早期检测。2、以往的方法都关注的是图像在语义层面的特征(如情感挑衅),忽略了假图像在物理层面上的个体信息,例如再压缩伪影,这些伪影反映在频域上。3、MCAN模型作为假新闻检测的通用框架,组成部分是灵活的。用于提取多模态特征的子网络可以用不同的模型代替。此外,MCAN的模块化融合过程使其可以方便地处理更多的模态。
  MCAN的结构如图所示,旨在通过考虑模态之间的依赖关系来学习多模态融合表示。对于带有文本和图像的新闻,首先利用三种不同的子模型从空间域、频率域和文本中提取特征。然后通过由多个共注意层组成的深度共注意模型融合多模态特征。最后,利用共注意模型的输出来判断输入新闻的真实性。
在这里插入图片描述

特征提取

  假新闻图像通常是在频域上表现出周期性的重新压缩图像或篡改图像,这些图像很容易被cnn捕获。因此,本文设计了一个基于cnn的子网络,从频域提取特征:
在这里插入图片描述
  有关实现细节,首先通过离散余弦变换(DCT)将图像从空间域转换到频域。经采样后将其馈送到基于上述cnn的网络中。有关语义特征,则使用了常规的VGG和BERT。

特征融合

  在阅读图文新闻时,人们通常会下意识地先看图片,再看文字。这个过程可以重复多次,不断融合图像和文本信息。受此启发,本文开发了MCAN来模拟这一过程。共注意(CA)块是MCAN的核心。MCAN通过级联堆叠多个CA层来实现特征融合,该CA层由两个并行连接的CA块组成。
在这里插入图片描述
  所谓的共注意力层实际上就是传统的多模态Transformer,不再赘述,通过交叉熵优化整个网络。

实验

主实验

  本文在常用的公开基准推特和微博数据集上验证MCAN的性能,表2显示了基线和MCAN在两个数据集上的结果。
在这里插入图片描述
  MCAN-A是MCAN的一种变体,将空间域特征、频率域特征和文本特征简单地连接起来进行预测。我们可以观察到,提议的MCAN在两个数据集的所有指标上优于所有基线。这两个数据集有许多相似的趋势。MCAN-A的性能优于单峰模型,这表明添加特征通常会提高模型的性能,但并不总是正相关的。例如,微博数据集上的Text优于MCAN-A。在加入多模态融合过程后,MCAN打败了MCAN-A等多模态模型,体现了我们提出的特征融合方法确实优于简单的拼接方法。

消融实验

  消融实验的结果如图五所示,“ALL”表示包含所有组件的整个模型MCAN,包括空间域表示(S)、文本表示(T)、频域表示(F)和共同关注层(A),“-F-A”则表示没有频域表示和共同注意层的简化MCAN。
在这里插入图片描述  我们可以观察到,每个组件在提高MCAN的性能方面都起着重要的作用。MCAN打败了MCAN-F,这表明频域信息确实有助于检测假新闻。在Twitter数据集上,文本表示对整个模型的贡献小于视觉表示,而在微博数据集上则相反。这是由于不平衡问题和文本的平均长度不同导致的。

可视化

  作者对MCAN和有代表性的变体MCAN-A进行了t-sne可视化:
在这里插入图片描述  我们可以观察到,MCAN学习到的特征表示的可分离性比它的简化模型MCAN-A要好得多。两类样本之间的隔离区域更明显,这得益于MCAN中共同关注层的级联叠加方式,深度融合了多模态的特点,促进了假新闻与真实新闻的区分。
  作者还进行了案例研究,这是为了说明多模态的重要性。
在这里插入图片描述
  图7显示了MCAN成功检测到的两条高度自信的tweet,但被纯文本MCAN忽略了。这两个例子的文本内容几乎不能证明它是假新闻。在图8中,MCAN检测到这两个示例,但Spatial没有检测到。两个示例中所附的图像看起来很正常。然而,这条推文中的文字似乎有些夸张,令人难以置信。仅空间域的MCAN检测具有挑战性,但由于具有多模态特征,MCAN模型可以正确识别它们。

### 关于夜间行人检测的研究进展 夜间行人检测是一个具有挑战性的研究领域,尤其是在低光照条件下,传统基于可见光的图像处理方法难以有效提取目标特征。因此,近年来的研究主要集中在跨模态学习和多传感器融合技术上。 #### 跨模态行人重识别 (RGB-IR) 为了应对夜间环境下的行人检测问题,研究人员提出了 RGB-IR 跨模态行人重识别的方法[^1]。这种方法通过结合可见光摄像头(RGB)和红外摄像头(IR),利用两种不同模态的数据来增强模型对行人的表征能力。具体来说: - **数据预处理**:由于 RGB 和 IR 图像之间的域差异较大,通常需要设计特定的数据增强策略以减少这种差距。 - **特征对齐**:采用深度学习框架中的对抗训练机制或自监督学习方法实现两个模态间的特征空间对齐。 - **联合优化**:构建端到端网络结构,在同一框架下同时完成身份匹配任务和其他辅助任务(如属性预测)。 以下是几个重要的研究方向和技术突破: 1. **域适应算法**:解决因设备型号、天气条件等因素引起的分布偏移问题; 2. **注意力机制引入**:突出显示局部区域的重要性从而提高区分度; 3. **生成对抗网络(GAN)** 应用:用于合成高质量伪标签样本扩充有限的真实配对标注集规模; 对于希望获取相关论文PDF版本或者进一步了解该领域的读者而言,可以尝试访问以下资源平台检索关键词组合:"Nighttime Pedestrian Detection", "Cross-modal Person Re-ID" 或者查阅顶级会议(CVPR, ICCV, ECCV)近年收录的文章列表。 ```python import requests from bs4 import BeautifulSoup def search_papers(query): url = f"https://scholar.google.com/scholar?q={query}&hl=en&as_sdt=0%2C5" headers = {'User-Agent': 'Mozilla/5.0'} response = requests.get(url, headers=headers) soup = BeautifulSoup(response.content, "html.parser") papers = [] for item in soup.find_all('div', class_='gs_r gs_or gs_scl'): title = item.find('h3').text.strip() link = item.find('a')['href'] abstract = item.find('div', class_='gs_rs').text.strip()[:200]+'...' papers.append((title,link,abstract)) return papers papers = search_papers("nighttime pedestrian detection cross modal person re id") for idx,(t,l,a) in enumerate(papers[:5]): print(f"{idx+1}. {t}\n{l}\n{a}\n\n") ``` 上述脚本可以帮助快速定位一些公开可获得的相关学术资料链接地址及其简介描述信息摘要部分展示出来供参考选用。 ---
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

一本糊涂张~

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值