
多模态
文章平均质量分 74
肉嘟嘟的zhu
。。。。。
展开
-
MVP(Multi-view Prompting):多视图提示改进了方面情感元组预测
利用人类在推理和决策中从不同角度解决问题的直觉,将不同顺序预测的情绪元素聚合在一起。MVP引入基于元素顺序的提示学习来控制情绪元素的预测顺序,实现不同的目标表达。MVP通过接收来自多个视图的信息来减轻固定顺序的不完整性和不稳定性,同时通过元素的排列减轻生成方法的潜在错误积累。具体地说,MVP引入元素顺序提示,引导语言模型生成多个情感元组,每个元组具有不同的元素顺序,然后通过投票选择最合理的元组。现有的研究通常以固定的顺序预测情感元素,忽略了情感元组中元素的相互依赖性和语言表达的多样性对结果的影响。原创 2023-06-28 15:39:16 · 862 阅读 · 0 评论 -
(2022 EMNLP)(SEMGraph)将情感知识和眼动结合到一个图架构中
为了获得带有情感概念的眼动特征,设计一种新的加权策略,将情感常识知识提取的情感分数整合到眼动特征中,称为情感-眼动权重。4.基于眼动信号的情感分析数据集和三个没有眼动信号的情感分析数据集,证明了所提出的方法SEMGraph在SA中达到了最先进的性能,同时可以推广到没有眼动信号的情感分析数据集。在2个含眼动信号的眼动情感分析数据集和3个不含眼动信号的眼动情感分析数据集上的实验结果表明了该方法的有效性和良好的泛型性。基于眼动的情感分析,旨在绘制基于眼动的情感关系,以学习语境中的情感表达。原创 2023-05-15 11:02:29 · 776 阅读 · 1 评论 -
(2023)基于多模态概率融合提示的少样本多模态情感分析
为了减少不同模式提示的差异,设计了由图像描述提示和文本提示组成的统一的多模式提示。为了提高模型的鲁棒性,利用每个输入的多个不同提示,并提出了一种概率方法来融合输出预测。且不同的提示包含不同数量的信息,单一提示所传达的信息是不够的。2. 设计了统一的多模态提示来减少不同模态提示的差异,并设计了概率融合方法来聚合多个多模态提示的预测,以提高模型的鲁棒性。对于图像模态,首先生成每个图像的文本描述,并将其编码为文本提示,以提高图像和文本提示的兼容性。提出了一种新的概率融合方法来融合来自多模态提示的多个预测。原创 2023-04-11 16:05:08 · 1866 阅读 · 1 评论 -
Multimodal Emotion-Cause Pair Extractionin Conversations
视频:应用了一种3D-CNN网络,命名为C3D,利用深度3D ConvNet学习时空特征,从每个话语的视频中提取128维的视觉特征vi。文本:用预先训练好的300维GloVe向量初始化每个标记,并将它们输入一个带有标准注意机制的BiLSTM编码器,然后获得每个话语的文本特征。首先基于训练好的情感分类器识别情绪话语,然后根据两种相对位置(即, -2, -1, 0)的先验分布,对一个情绪的原因话语进行抽样。任务2:多模态情绪-原因对提取 情绪类别(MECPE-Cat),如图3,哪个对话造成了哪个情绪的产生。原创 2023-03-19 17:02:18 · 853 阅读 · 0 评论 -
Emotional Reaction Intensity Estimation Based on Multimodal Data
这些多模态数据通常受到环境的干扰,如光线、噪音、相机的质量等。ERI估计需要仔细利用和分析这些多模态数据来创建一个模型,该模型通过分析语音信息、视觉信息和手势信息,能够较好地识别人的情绪状态。首先,将之前提取的特征作为一维时间卷积网络的输入,提取局部时间信息。然后,将一维CNN的输出输入transformer编码器实现与动态注意力权重的长期依赖。文章比较简短,因为是一场竞赛中所用到的方法撰写的,是CVPR 2023:第五届野外情感行为分析(ABAW)研讨会和比赛中对情绪反应强度(ERI)估计挑战的方法。原创 2023-03-19 13:41:01 · 450 阅读 · 0 评论 -
MMIM(2021 EMNLP)分级互信息最大化
在两个数据集上进行了综合实验,随后进行了消融研究,结果验证了我们模型的有效性和MI最大化框架的必要性。提出了一个名为 (MMIM),它在层次上最大化互信息(MI)在单模态输入对(多模态间)和多模态融合结果与单模态输入之间,以便通过多模态融合保持任务相关信息。以前的工作要么反向传播任务损失,要么操纵特征空间的几何属性来产生良好的融合结果,这忽略了保存从输入到融合结果的关键任务相关信息。提出了一种用于多模态情感分析的分层MI最大化框架。MI最大化发生在输入级和融合级,以减少有价值的任务相关信息的损失。原创 2022-12-22 18:13:51 · 2395 阅读 · 3 评论 -
Span-level Bidirectional Network(2022 EMNLP)
具体来说,我们设计了方面解码器和意见解码器来解码跨度表示,并从方面到意见和意见到方面的方向中提取三元组。此外,考虑到跨度之间不能保证互斥,我们设计了相似跨度分离损失,以便在训练过程中通过扩大相似跨度的KL散度来方便下游任务区分正确的跨度;实验结果表明,我们的网络显著优于比较基线,并达到了最先进的性能。由于所有可能跨度显著增加了潜在方面和观点候选的数量,因此如何有效地提取其中的三元组元素是至关重要和具有挑战性的。我们设计了一个跨级双向网络,在跨级模型中分别从方面到观点和观点到方面两个方向提取三元组。原创 2022-12-21 22:40:53 · 1232 阅读 · 0 评论 -
SWRM(2022)
针对这一问题,我们提出了情感词感知的多模态精细化模型,该模型通过融合情感信息动态精细化词嵌入,重构被破坏的情感语义。具体来说,首先利用情感词位置检测模块获取情感词在文本中最可能的位置,然后利用多模态情感词精化模块动态精化情感词嵌入。(1)提出了一种新颖的情感词感知多模态情感精细化模型,利用多模态情感信息动态重构带有错误的ASR文本的情感语义,从而实现更稳健的情感预测;在某些情况下,文本情态中的关键情感元素情感词被识别为其他词,这使得文本的情感发生了变化,直接影响了多模态情感模型的性能。原创 2022-12-21 22:25:36 · 852 阅读 · 0 评论 -
LCF-ATEPC(2020 Elsevier)面向中文的方面级提取和分类
该模型可以自动从评论中提取方面,并推断方面的极性。在ABSA任务的3个常用英文数据集和4个中文回顾数据集上的实证结果表明,与所有基于基本BERT的模型相比,LCF-ATEPC模型在ATE和APC任务上取得了最先进的性能。面向中文的方面级情绪分析的多任务学习模型(LCF-ATEPC),该模型能够同时进行aspect term extraction(ATE)和aspect polarity classification(APC)两个子任务,能够同时对中英文评论进行分析,该模型集成了自适应领域的BERT模型。原创 2022-12-21 21:59:56 · 1775 阅读 · 0 评论 -
Hierarchical Fusion Model (2019 ACL)三种模态的层次融合
利用了三种类型的特征,即文本、图像和图像属性特征,并以一种新颖的方式融合它们。作者提出了一种新的分层融合模型,以充分利用三种模态(图像、文本和图像属性)来解决具有挑战性的多模态讽刺检测任务。评估结果证明了提出的模型的有效性和三种模式的有用性。在未来的工作中,将把其他模态,如音频,纳入到讽刺检测任务中,也将研究在所提出的模型中使用常识知识。提出了一种新的层次融合模型来解决具有挑战性的推特中的多模态反讽检测任务。是第一个将图像、属性和文本这三种形态深度融合在一起的,而不是简单的连接推特讽刺检测。原创 2022-12-21 19:06:16 · 1568 阅读 · 0 评论 -
UniMSE(2022)统一的多模态情感分析与情感识别(多层融合和对比学习)
此外,还融合了具有多层次文本特征的听觉和视觉模态表示,并引入了跨模态对比学习。MSA和ERC的四个公开基准数据集上进行了实验,包括多模态意见水平情绪强度数据集 (MOSI),多模态观点、情绪与情绪强度(MOSEI),Multimodal EmotionLines数据集(MELD) ,交互式情感二元动作捕捉数据库(IEMOCAP)作者提出了一个预训练的模态融合层(PMF),并将其嵌入到T5的Transformer 层中,该层将具有不同级别文本特征的声学和视觉信息融合在一起,以探测更丰富的信息。原创 2022-12-12 12:07:23 · 4409 阅读 · 4 评论 -
JML(2021 EMNLP) 关联图像和文本
另一方面,两个多模态子任务的特点不同:一个是序列标注问题,另一个是方面依赖分类问题。不同的任务似乎关注不同的图像信息(前者只用观察粗粒度的信息就可判断是文本中的具体的人,而后者需要观察更加细致的表情)。因此,一个良好的方法应该分别挖掘这两个子任务的视觉信息,而不是使用相同的视觉输入进行折叠标记。之前有工作提出将图像信息引入到方面级情感分析中,但这篇文章提出,将有用的信息引入,无用的信息筛掉,有可借鉴之处。这个模块的目的是为后面的联合任务探索有效的视觉信息,而不是想传统方法那样将所有的视觉信息都投入使用。原创 2022-11-10 09:50:09 · 546 阅读 · 0 评论 -
Sentic GCN (2022 Knowledge-Based Systems)
在每个句子的依赖树和情感常识知识之上构建图表。具体来说,首先基于依赖树为每个句子构造一个普通的依赖图,以捕获句子的句法信息。其次,利用语境词与方面词之间的情感依赖关系,将外部情感常识知识融入到图的生成中;根据句子的句法依赖关系和情感信息对特定方面的依赖关系,可以将每个句子建模为面向特定方面的情感增强依赖关系图。然后将情感增强依赖图作为输入输入到基于gcn的模型中,以捕获情感增强依赖图的表示形式句子。2. 提出了一种基于依赖树和情感常识知识的图卷积网络构造图的新解决方案,以捕获对应于特定方面的情感依赖。原创 2022-11-09 17:04:41 · 1272 阅读 · 2 评论 -
(AFDEN)2022 SIGIR 面向情感分析的方面级特征提取与增强网络
这个模块就在把aspect-related和aspect-unrelated信息分开了,用到了简单的数学变换,变换的思想如Figure 2所示(Figure 2是以2维向量为例,词向量一般是更高维的向量)。然后,为了消除方面无关词的干扰,作者设计了一个新的方面特征蒸馏模块,该模块包含一个通过对抗训练学习方面无关上下文特征的梯度反向层和一个方面特定的正交投影层,进一步将方面相关特征投影到方面无关特征的正交空间。1)利用不同的注意力:跟所有的方面都计算分数,部分跟aspect无关,因此引入了噪声;原创 2022-11-03 17:14:24 · 734 阅读 · 0 评论 -
MABSA(Multimodal Aspect-Based Sentiment Analysis)2022ACL 预训练
进一步的实验和分析表明本文的各个预训练任务都对提升模型的表现有所帮助,在弱监督的情况下本文提出的几种task-specific的预训练任务对于模型提升的效果更显著。另外,在训练样例有限的情况下,本文提出的预训练方法给模型预测效果带来的提升也更为明显。:类似UNITER中的MRM-kl的做法,以15%的概率随机遮蔽image regions并替换为零向量,预测每个遮蔽掉的region的语义类别分布,将模型预测的分布与Faster R-CNN对该region预测的类别分布两者的KL散度作为该任务的损失值。原创 2022-10-15 16:53:40 · 1945 阅读 · 0 评论 -
METER(Multimodal End-to-end TransformerER)
(1) Vision transformer (VIT) 在模型中所起到的作用要高于 language transformer,另外 VIT 在 Imagenet 中的 performance 并不能代表在 vision-language 中的 performance,会出现水土不服,需要重现训练。因此,寻找一个较为合适的VL模型有重要意义。视觉转换器(ViT)在VLP中比语言转换器发挥着更重要的作用,而单纯的视觉转换器或语言转换器在VL任务中的表现并不能很好地反映它在VL任务中的表现。原创 2022-10-15 09:32:30 · 1038 阅读 · 1 评论 -
ORAR 室外场景导航 2022ACL
室外不可见区域导航,主要目标是学习户外在不可见区域的虚拟网络,致力于研究agent需要哪种环境和指令的表示才能成功完成这项任务。大多数之前的工作都是在室内场景中进行的,在与训练路线相似的路线上导航获得了最佳结果,但在不可见的环境中测试时,性能会急剧下降。2.为户外引入了看不见的场景VLN,并提出了两个环境相关的特性,以提高在该设置下的泛化。3.比较了不同的视觉表征,并进行了语言掩蔽实验,以研究在看不见的场景下的效果。1.描述了一个直接的代理模型,它实现了最先进的任务完成,并被用作实验的基础。原创 2022-10-14 11:31:10 · 401 阅读 · 0 评论 -
CMGCN 2022ACL
然后,通过对对象的描述作为桥梁,确定图像情态对象与文本情态语境词之间关联的重要性,为每个多情态实例构建跨模态图。本文提出了一种新的多模态讽刺检测的跨模态图结构,该结构将关键的视觉区域显式连接到高度相关的文本标记,用于学习讽刺表达的不一致情绪。2.利用图像对象的属性-对象对作为桥梁,提出了一种新的构建交叉模态图的方法,通过重要程度不同的边显式连接两个模态。3.在一个公开的多模态讽刺检测基准数据集上的一系列实验表明,作者提出的方法达到了最先进的性能。(1)Text-modality表示。原创 2022-10-12 17:14:40 · 1957 阅读 · 0 评论 -
对比损失RINCE 2022
对比学习依赖于一个假设,即正对(positive pair)包含相关的视图,例如,图像的补丁或视频的共出现的多模态信号,它们共享关于一个实例的某些底层信息。文献表明,在有噪声的观点存在时,对比学习产生次优表示,例如,没有明显共享信息的假阳性对。在经验上,我们在图像、视频和图表对比学习场景中提供了广泛的结果,展示了它对各种现实噪声模式的鲁棒性。本文提出RINCE,一种对噪声(如图像的过度增广、视频的过度配音、视频和标题未对准等)有鲁棒性的损失,且不需要显式地估计噪声。对称的损失函数对噪声有鲁棒性。原创 2022-10-10 19:09:11 · 921 阅读 · 0 评论 -
多模态对比学习ALBEF(融合之前对齐)
在将图像表示和文本表示通过一个多模态编码器融合之前,ALBEF首先将它们对齐。作者从理论上和实验上验证了所提出的图像-文本对比学习和动量蒸馏的有效性。与现有的方法相比,ALBEF在多个下游V+L任务上有更好的性能和更快的速度。原创 2022-10-08 11:17:20 · 7526 阅读 · 0 评论 -
FPT(Pretrained Transformer) 2022AAAI
作者研究了在语言上预训练的Transformer以最少的微调泛化到其他模态的能力——特别是在没有微调residual blocks (Self-Attn和FFN Layers)的情况下。的参数进行微调,作者发现只fine-tune这些参数也可以达到和fine-tune所有参数一样的分类模型效果。对预训练模型进行所有参数的微调是一个很笨的工作,作者就在想有没有方法只fine-tune一部分参数就可以达到fine-tune所有参数的效果。ListOps:给定一系列的操作,判断最后输出的数字。原创 2022-09-29 15:50:30 · 1178 阅读 · 0 评论 -
CLIPBERT(2021 CVPR)
CLIPBERT 稀疏采样原创 2022-09-29 11:34:21 · 1294 阅读 · 0 评论 -
ViLBERT—(NeurIPS-2019)
预训练+迁移学习原创 2022-09-17 10:52:52 · 1216 阅读 · 0 评论 -
ViLT Vision-and-Language Transformer Without Convolution or Region Supervision
2021年发布在ICML,称为最简单的多模态模型。原创 2022-07-14 13:53:22 · 1055 阅读 · 0 评论 -
Learning Transferable Visual Models From Natural Language Supervision
CLIP:Learning Transferable Visual Models From Natural Language Supervision原创 2022-07-04 17:02:54 · 6172 阅读 · 2 评论