
多模态
文章平均质量分 96
一些关于多模态论文的阅读心得
鱼儿也有烦恼
本博客主要记录个人学习过程中的笔记,旨在分享学习旅程的精华与见解。
若有所助,幸甚;若有谬误,敬请斧正。
展开
-
Contextual Augmented Global Contrast for Multimodal Intent Recognition
提出了一种上下文增强全局对比(CAGC)方法。CAGC 包括两个主要部分:上下文增强转换器 (CAT) 模块和全局上下文引导对比学习 (GCCL) 方案。主要想法是探索丰富而全面的上下文特征,以解决意图识别中的不确定性问题。CAT 的目的是通过同时挖掘视频内和跨视频的上下文关系来学习精炼的全局上下文相关特征,从而减少意图理解中的偏差。为了确保有效的跨视频来源,作者进一步设计了一个跨视频库,该库同时考虑了视频间的意图倾向和相似性。该库可以帮助模型避免和减轻无关视频带来的错误积累,从而确保更精确的跨视频上下文特原创 2024-10-30 11:29:34 · 1238 阅读 · 0 评论 -
Hierarchical Supervised Contrastive Learning for Multimodal Sentiment Analysis
将监督对比学习(SCL)引入 MSA 任务,提出了一种层次化监督对比学习方法(HSCL),以对齐来自不同模态的内容,包括单模态表征和双模态融合特征。同时,使用标签来约束对齐的表征,以保留丰富的情感语义。引入了有监督的对比学习,并提出了一种分层训练策略,即从低层和高层特征表征中捕捉情感。设计了self-attention和cross-attention模块,以融合来自不同模态数据的表征,从而提供更有效的情感内容。结果表明,HSCL 在两个公开的多模态情感分析数据集上取得了最先进的性能。原创 2024-10-30 11:22:16 · 1173 阅读 · 1 评论 -
CLGSI: A Multimodal Sentiment Analysis Framework based on Contrastive Learning Guided by Sentiment I
提出了一种基于情感强度引导的对比学习(CLGSI)的多模态情感分析新框架:提出了以情感强度为导向的对比学习方法。在对比学习中,根据情感强度差异选择正负样本对,并相应地分配权重。这就为对比学习过程提供了丰富的细粒度信息。提出了一种模仿人类认知过程的多模态表征融合机制——全局-局部-细粒度-知识(GLFK)。利用 GLFK 机制融合通过对比学习训练获得的各模态表征,以提取不同模态的共性特征。同时,使用 MLP 处理每个模态编码器的输出,提取每个模态的特定特征。最后,通过共性特征和特定特征的联合学习来预测情感强度原创 2024-10-30 11:16:17 · 1355 阅读 · 0 评论 -
Hybrid Contrastive Learning of Tri-Modal Representation for Multimodal Sentiment Analysis
在多模态情感分析领域,以往的大多数研究都侧重于探索模态内和模态间的交互。然而,由于模态之间的差距,利用跨模态信息(语言、音频和视频)训练网络仍然具有挑战性。此外,虽然每个样本内的动态学习备受关注,但样本间和类间关系的学习却被忽视。(如何学习到多模态数据有意义的表征?)作者提出了一种新型框架 HyCon,用于三模态表征的混合对比学习。具体来说,同时进行模态内、模态间对比学习和半对比学习,这样模型就能充分探索跨模态交互,学习样本间和类间关系,缩小模态差距。此外,还引入了细化项和模态边界,以便更好地学习单模态配对原创 2024-09-23 16:40:51 · 1052 阅读 · 0 评论 -
An efficient multimodal sentiment analysis in social media using hybrid optimal multi-scale residual
EMRA-Net:利用混合优化多尺度残差注意力网络在社交媒体中进行高效的多模态情感分析。总结:提出一种使用 AOA-HGS 优化的集成多尺度残差注意力网络 EMRA-Net,来探索文本、语音、和视觉模态之间的相关性,从而进行了更有效的多模态情感分析。优点:在提出的模型中,对三种模态(文本、语音和视频)给予同等重视。缺点:将特征融合起来输入,得到的三种模态特征是否具备足够的特性。作者:Bairavel Subbaiah,Kanipriya Murugesan。单位:KCG技术学院(印度)原创 2024-06-07 18:24:04 · 1218 阅读 · 0 评论 -
A Unified Self-Distillation Framework for Multimodal Sentiment Analysis with Uncertain Missing Modal
UMDF:用于具有不确定缺失模态的多模态情感分析的统一自馏框架。总结:提出的UMDF框架解决了MSA任务中的缺失模态问题。UMDF通过蒸馏式分布监督和基于注意力的多粒度交互,产生了鲁棒的联合多模态表征。作者:Mingcheng Li,Dingkang Yang,Lihua Zhang。单位:复旦大学工程技术研究院、认知与智能技术实验室(CIT 实验室)。会议/期刊:The Thirty-Eighth AAAI Conference on Artificial Intelligence (AAAI 2024)原创 2024-06-07 18:02:51 · 1466 阅读 · 1 评论 -
Sentiment Knowledge Enhanced Self-supervised Learning for Multimodal Sentiment Analysis
SKESL:多模态情感分析中的情感知识增强型自监督学习。总结:从未标注的视频数据中挖掘情感先验信息可以为标注数据带来更好的预测效果。未标记视频数据量越大,语言建模能力越强,性能越好。(自监督学习,扩大数据集)作者:Fan Qian,Jiqing Han。单位:Harbin Institute of Technology(哈尔滨工业大学)。会议/期刊:Findings of the Association for Computational Linguistics: ACL 2023原创 2024-06-07 17:48:26 · 1485 阅读 · 3 评论 -
ConFEDE: Contrastive Feature Decomposition for Multimodal Sentiment Analysis
ConFEDE:用于多模态情感分析的对比特征分解;总结:提出了一种对比特征分解框架 ConFEDE,基于对比特征分解,利用对比训练损失,捕捉了不同模态之间、不同样本之间的一致性和差异性。会议/期刊:Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics (ACL 2023)(CCF A)原创 2024-03-22 19:21:46 · 2355 阅读 · 5 评论 -
ConKI: Contrastive Knowledge Injection for Multimodal Sentiment Analysis
ConKI:用于多模态情感分析的对比知识注入。总结:提出了一种利用知识注入和分层对比学习来获取更有效的单模态表征的方法。会议/期刊:Findings of the Association for Computational Linguistics(ACL 2023)(CCF A)现有的多模态情感分析方法主要基于预训练模型获得的一般知识对模态进行编码,来进行多模态融合和表征学习,从而忽略了特定领域知识的影响。提出了用于多模态情感分析的对比知识注入框架(ConKI),用于学习泛知识表征(来自预训练模型提取的一般原创 2024-03-18 21:52:50 · 1381 阅读 · 0 评论 -
TEASEL: A transformer-based speech-prefixed language model
TEASEL:一种基于Transformer的语音前缀语言模型。总结:论文提出了一种基于 Transformer 的语音前缀语言模型 TEASEL,实际本质是用了一个 RoBERTa 模型作为框架,然后加入了一个 LAA 模块(LAA模块就是将音频特征编码为 RoBERTa 编码器的前缀 token)。在训练的时候主要是训练 LAA 模块的参数,当 LAA 模块的参数收敛后,在CMU-MOSI数据集上面微调整个模型。会议/期刊:arXiv。年份:2021。作者:Mehdi Arjmand,Mohammad原创 2024-03-11 12:03:23 · 1108 阅读 · 0 评论 -
UniSA: Unified Generative Framework for Sentiment Analysis
UniSA:统一的情感分析生成框架。原理=>所有子任务整合起来,数据集就变得很大了,让模型学习这些所有的数据,模型的情感能力就上去了,关键在于怎么整合?训练好之后,不管是情感分析的什么任务(输入都会被Task-Specific Prompt统一,输出都有四个标签,一个真实标签,三个伪标签),通过这个框架都可以实现不错的结果。会议/期刊:Proceedings of the 31st ACM International Conference on Multimedia(MM 2023)(CCF A)原创 2024-03-06 21:28:42 · 1287 阅读 · 0 评论 -
Learning Language-guided Adaptive Hyper-modality Representation for Multimodal Sentiment Analysis
ALMT:学习语言引导的自适应超模态表征,用于多模态情感分析;总结:提出了一个自适应语言引导的多模态转换器 ALMT,通过AHL模块可以很好的解决视觉模态和音频模态无关信息对文本模态的影响(提取到了更佳的适合融合的模态特征)。作者:Haoyu Zhang,Tianshu Yu。单位:The Chinese University of Hong Kong(香港中文大学)。会议/期刊:Proceedings of the 2023 Conference on Empirical Methods in Natur原创 2024-03-04 20:43:17 · 1637 阅读 · 0 评论 -
UniMSE: Towards Unified Multimodal Sentiment Analysis and Emotion Recognition
UniMSE:实现统一的多模态情感分析和情绪识别。总结:提出了一个 UniMSE 的框架,利用该框架将情感和情绪联合建模(将 MSA 任务和 ERC 任务统一起来),通过将 PMF 嵌入 T5 架构中去实现多模态融合表征的获取。文章信息。作者:Guimin Hu;Yi Zhao;单位:Harbin Institute of Technology(哈尔滨工业大学);会议/期刊:Proceedings of the 2022 Conference on Empirical Methods in Natural原创 2024-02-02 19:16:46 · 1314 阅读 · 0 评论 -
Learning to Learn Better Unimodal Representations via Adaptive Multimodal Meta-Learning
AMML:通过自适应多模态元学习,学会更好地学习单模态表征。总结:提出了一种 AMML 的算法,通过解耦单模态和多模态网络的学习过程,提取完全优化的单模态表征,然后将优化的单模态表征用于多模态融合。文章信息:作者:Ya Sun;Haifeng Hu*单位:Sun Yat-sen University(中山大学)会议/期刊:IEEE Transactions on Affective Computing题目:Learning to Learn Better Unimodal Representations原创 2024-01-19 16:02:42 · 1016 阅读 · 0 评论 -
Multimodal Transformer for Unaligned Multimodal Language Sequences
MulT:未对齐多模态语言序列的多模态变换器;题目:Multimodal Transformer for Unaligned Multimodal Language Sequences年份:2019研究目的探索多模态数据集中跨模态元素之间的长范围依赖关系(本质:实现在未对齐的多模态数据集上进行多模态融合)研究内容提出了一个框架MulT进行多模态信息的融合,该框架引入了Cross-modal Attention机制。融合过程:首先利用 Conv1D 获取不同**模态特征**[^1]的局部信息,并将不同模态的特原创 2024-01-11 09:57:29 · 1273 阅读 · 0 评论 -
Efficient Multimodal Transformer with Dual-Level Feature Restoration for Robust Multimodal Sentiment
总结:多模态融合时,采用Global-Local的融合策略,利用MPU单元,实现模态的融合。题目:Efficient Multimodal Transformer with Dual-Level Feature Restoration for Robust Multimodal Sentiment Analysis解决多模态情感分析的两个问题:① MSA 在未对齐的多模态数据集中建立跨模态交互模型(cross-modal interactions )效率低下。② MSA 易受随机模态特征缺失原创 2024-01-04 21:51:25 · 1472 阅读 · 0 评论 -
MIA-Net: Multi-Modal Interactive Attention Network for Multi-Modal Affective Analysis
总括:多模态融合时,首先将多种模态分为主模态与辅助模态,通过构建了一个交互注意力模块,从辅助模态中提取对主模态有帮助的信息进行融合。(属于特征级基于注意力的融合方式)原创 2023-12-10 16:06:53 · 1566 阅读 · 0 评论