
多模态(图像文本)
文章平均质量分 94
用于存放目前主流多模态SOTA论文解读
Trouble..
在读研究生
展开
-
CLIP-Event: Connecting Text and Images with Event Structures 论文解读
视觉-语言(V+L)预训练模型通过理解图像和文本之间的对齐关系,在支持多媒体应用方面取得了巨大的成功。现有的视觉语言预训练模型主要侧重于理解图像中的对象或文本中的实体,它们往往忽略了事件级别及其论元结构的对齐。在这项工作中,我们提出了一个对比学习框架,以加强视觉-语言预训练模型来理解事件和相关的论元(参与者)角色。为此,我们利用文本信息抽取技术获取事件结构知识,并利用多个提示函数通过操纵事件结构来对比困难的负面描述。我们还设计了一个基于最优传输的事件图对齐损失来捕获事件论元结构。原创 2023-03-13 13:53:45 · 851 阅读 · 0 评论 -
【论文速递】ACM MM 2022 - 基于统一对比学习框架的新闻多媒体事件抽取
从新闻中提取事件在下游应用程序中有很多好处。然而,今天的事件提取(EE)系统通常专注于单一的模态——无论是文本还是图像,并且由于新闻文档通常以多媒体格式呈现,因此这种方法会受到信息不完整的影响。在本文中,我们提出了一种新的多媒体EE方法,通过使用统一的对比学习框架桥接文本和视觉模式。我们的中心思想是为文本和图像创建一个共享空间,以改善它们的相似表示。这通常是通过对文本图像对进行训练来实现的,我们证明,通过研究另一种模态的互补性,可以使用该框架来促进一种模态学习。原创 2023-03-15 16:03:43 · 682 阅读 · 0 评论 -
【论文速递】ACL 2020 - 多媒体事件抽取的跨媒体结构化公共空间
我们介绍了一个新的任务,多媒体事件抽取(M2E2),旨在从多媒体文档中抽取事件及其参数。我们开发了第一个基准测试,并收集了245篇多媒体新闻文章的数据集,其中包含大量标注的事件和论点。我们提出了一种新的方法,弱对齐结构化嵌入(Weakly Aligned Structured Embedding, WASE),它将语义信息的结构化表示从文本和视觉数据编码到一个公共的嵌入空间。通过采用弱监督训练策略,使结构在不同模式之间保持一致,从而可以在没有显式跨媒体标注的情况下利用可用资源。原创 2023-03-15 15:56:16 · 325 阅读 · 0 评论 -
Data2Vec:视觉、语音和语言的语境化目标表征的高效自监督学习
目前的自监督学习算法通常是特定模态的,需要大量的计算资源。为了解决这些问题,我们提高了data2vec的训练效率,这是一个跨越多种模式的学习目标。我们不需要编码masked tokens,使用一个快速的卷积解码器,并分摊构建教师表示的工作量。data2vec 2.0受益于data2vec中引入的丰富的语境化目标表征,这使一个快速的自监督学习者成为可能。原创 2023-02-14 08:19:21 · 1681 阅读 · 1 评论 -
Multimedia Event Extraction From News With a Unified Contrastive Learning Framework论文解读
从新闻中提取事件在下游应用程序中有很多好处。然而,今天的事件提取(EE)系统通常专注于单一的模态——无论是文本还是图像,并且由于新闻文档通常以多媒体格式呈现,因此这种方法会受到信息不完整的影响。在本文中,我们提出了一种新的多媒体EE方法,通过使用统一的对比学习框架桥接文本和视觉模式。我们的中心思想是为文本和图像创建一个共享空间,以改善它们的相似表示。这通常是通过对文本图像对进行训练来实现的,我们证明,通过研究另一种模态的互补性,可以使用该框架来促进一种模态学习。原创 2023-03-14 14:25:42 · 536 阅读 · 1 评论 -
【论文速递】CVPR 2020 - CLIP-Event:用事件结构连接文本和图像
视觉-语言(V+L)预训练模型通过理解图像和文本之间的对齐关系,在支持多媒体应用方面取得了巨大的成功。现有的视觉语言预训练模型主要侧重于理解图像中的对象或文本中的实体,它们往往忽略了事件级别及其论元结构的对齐。在这项工作中,我们提出了一个对比学习框架,以加强视觉-语言预训练模型来理解事件和相关的论元(参与者)角色。为此,我们利用文本信息抽取技术获取事件结构知识,并利用多个提示函数通过操纵事件结构来对比困难的负面描述。我们还设计了一个基于最优传输的事件图对齐损失来捕获事件论元结构。原创 2023-03-15 15:58:22 · 554 阅读 · 0 评论