联合模态融合+图对比学习

最新推荐文章于 2025-04-12 13:15:11 发布

原创

最新推荐文章于 2025-04-12 13:15:11 发布 · 1.1k 阅读

27 ·

CC 4.0 BY-SA版权

文章标签：

#python #人工智能

✨✨ 欢迎大家来访Srlua的博文（づ￣3￣）づ╭❤～✨✨

🌟🌟 欢迎各位亲爱的读者，感谢你们抽出宝贵的时间来阅读我的文章。

我是Srlua小谢，在这里我会分享我的知识和经验。🎥

希望在这里，我们能一起探索IT世界的奥妙，提升我们的技能。🔮

记得先点赞👍后阅读哦~ 👏👏

📘📚 所属专栏：传知代码论文复现

欢迎访问我的主页：Srlua小谢获取更多信息和资源。✨✨🌙🌙

本文所有资源均可在该地址处获取。

文章摘要

多模态情感识别旨在识别多种模态中每个话语的情感，这在人机交互应用中越来越受到关注。当前基于图的方法未能同时描述对话中的全局上下文特征和局部多样的单模态特征。此外，随着图层数量的增加，它们很容易陷入过度平滑的情况。本文提出了一种用于多模态情感识别的联合模态融合和图对比学习方法（JOYFUL），其中多模态融合、对比学习和情感识别被联合优化。具体来说，我们首先设计了一种新的多模态融合机制，可以提供全局上下文和单模态特定特征之间的深度交互和融合。然后，我们引入了一个图对比学习框架，包括视图间和视图内对比损失，以学习更可区分的表示，适用于具有不同情绪的样本。对三个基准数据集的大量实验证明，JOYFUL相对于所有基线方法取得了最先进的性能。

模型整体框架

JOYFUL架构整体；首先提取单模态特征，然后使用多模态融合模块将它们融合起来，并将其作为基于 GCL 的框架的输入，以学习更好的情感识别表示。

特征提取模块

JOYFUL模型对于特征提取并有做很多的创新，基本上都是使用预训练模型进行特征的提取

对于 IEMOCAP 数据集（Busso 等人，2008），视频特征 xv∈R512xv∈R512，音频特征 xa∈R100xa∈R100，文本特征 xt∈R768xt∈R768 分别从 OpenFace（Baltrusaitis 等人，2018）、OpenSmile（Eyben 等人，2010）和 SBERT（Reimers 和 Gurevych，2019）中获得。对于 MELD 数据集（Poria 等人，2019a），xv∈R16053xv∈R16053，xa∈R300xa∈R300，xt∈R768xt∈R768 分别从 DenseNet（Huang 等人，2017）、OpenSmile 和 TextCNN（Kim，2014）中获得。对于 MOSEI 数据集（Zadeh 等人，2018），xv∈R35xv∈R35，xa∈R80xa∈R80，xt∈R768xt∈R768 分别从 TBJE（Delbrouck 等人，2020）、LibROSA（Raguraman 等人，2019）和 SBERT 中获得。文本特征是句子级别的静态特征。音频和视觉模态是通过对所有令牌特征进行平均得到的话语级别特征。

特征融合模块

特征融合模块一共包含两部分，一部分是上下文特征融合模块，一部分是特定区域的特征表示

上下文学习模块
通过简单的全链接网络调整了特征维度，堆叠两层transformer得到最终的融合之后的特征；模型在这里做了两次重构损失，对特征在做变换的时候做了一定的限制。
（1）特征在经过transformer之前与之后二范数损失重构：

（2）文章定义了一个全局情感状态，用最终的特征与该全局情感状态做重构损失：

个人理解：模型在进行训练的时候，是把一个向量空间的向量映射到另外一个向量空间上的向量，因为深度学习的这个向量映射的方式是不可控的，加入一定的限制之后，训练的方向会尽量的向着希望的方向进行。以上两种损失重构，就是把限制加到损失函数里面，进行限制。（1）中的重构方式是不希望特征在经过两层的transformer之后太过发散，与原来的特征求二范数加入损失函数，达到最终不会太过偏离原是数据的效果（2）定义了一个全局的情感信息，希望上下文学习的时候，不太偏离主题；

上下文主题的定义方式是：