Robust多模态模型的开发

最新推荐文章于 2025-05-12 00:37:41 发布

原创最新推荐文章于 2025-05-12 00:37:41 发布 · 1k 阅读

30 ·

CC 4.0 BY-SA版权

文章标签：

#数据分析

传知代码论文复现专栏收录该内容

160 篇文章

订阅专栏

✨✨ 欢迎大家来访Srlua的博文（づ￣3￣）づ╭❤～✨✨

🌟🌟 欢迎各位亲爱的读者，感谢你们抽出宝贵的时间来阅读我的文章。

我是Srlua小谢，在这里我会分享我的知识和经验。🎥

希望在这里，我们能一起探索IT世界的奥妙，提升我们的技能。🔮

记得先点赞👍后阅读哦~ 👏👏

📘📚 所属专栏：传知代码论文复现

欢迎访问我的主页：Srlua小谢获取更多信息和资源。✨✨🌙🌙

Robust 多模态模型：寻找遗失的模态！

需要本文的详细复现过程的项目源码、数据和预训练好的模型可从该地址处获取完整版：地址

Robust 多模态模型：寻找遗失的模态！

在这里插入图片描述

近年来，随着网络视频的大量涌现，各种多模态任务日益备受关注。尽管取得了显著的进展，但在迈向稳健多模态交互的道路上仍面临两大挑战： 1）在未对齐多模态数据中建模跨模态交互时效率低下; 2）在现实环境中通常会发生的随机模态特征缺失的脆弱性。
其中，提高对数据丢失的鲁棒性已成为多模态任务的核心挑战之一，其目的是从语言，视觉和声学信号中完成多模态任务。针对模态特征不完备的情况，目前主要提出了基于修正的方法和张量正则化方法。然而，这两种方法都无法科普非对齐序列中随机模态特征的缺失。

本文提出了一种 Robust 的多模态模型来提高模型对非对齐模态序列随机缺失的鲁棒性。

同时，我在流行的多模态任务–多模态情感计算的数据集上对模型进行了测试，得到了不错的效果，证明了该模型的可靠性。具体来说，我们使用了MOSI，MOSEI，以及两个中文数据集 SIMS, SIMSv2，以及抑郁症数据集AVEC2019，为医学心理学等领域提供帮助。
【注】我们文章中所用到的数据集，都经过重新特征提取形成新的数据集特征文件（.pkl），另外该抑郁症数据集因为涉及患者隐私，需要向数据集原创者申请，申请和下载链接都放在了我们附件中的 readme文件中，感兴趣的小伙伴可以进行下载，谢谢支持！

研究背景

随着用户生成的在线内容的丰富，各种多模态任务层出不穷。使用手动对齐的完整信息，包括转录语言，音频和视频，以前的工作已经取得了显着的改进多模态任务。然而，用户生成的视频通常是不完美的。首先，不同模态的接收器可能具有可变的接收频率，这导致不对齐的性质。其次，如下图所示，许多不可避免的因素，如用户生成的视频中的噪声或传感器故障，可能会导致模态特征提取器的故障。在这种情况下，需要一种能够处理随机模态特征缺失（RMFM）的模型。因此，在多模态任务中构建能够处理RMFM的模型仍然是一个开放的研究。基于RMFM的多模态任务的核心问题在于不完整模态序列的语义稀疏性，导致难以提取鲁棒的模态表示。据我所知，目前的工作大多直接使用具有缺失惩罚的不完整模态序列来学习联合融合表示。

模型结构和代码

在这里插入图片描述

单模态特征提取模态特征提取模块首先用一维卷积层处理不完整的模态序列，以确保输入序列的每个元素都知道其相邻元素。公式的排版如下：

在这里插入图片描述

模态重建模块我们提出了一个模态重建（MR）模块，基于这样一个关键观点：从提取的模态序列中重建完整的模态序列，可以引导提取模块学习缺失部分的语义。对于每种模态，首先在特征维度上执行自注意力机制，以捕获提取特征之间的交互。

在这里插入图片描述

数据集介绍

多模态情感计算数据集：

CMU-MOSI: CMU-MOSI数据集是MSA研究中流行的基准数据集。该数据集是YouTube独白的集合，演讲者在其中表达他们对电影等主题的看法。MOSI共有93个视频，跨越89个远距离扬声器，包含2198个主观话语视频片段。这些话语被手动注释为[-3，3]之间的连续意见评分，其中-3/+3表示强烈的消极/积极情绪； CMU-MOSEI: CMU-MOSEI数据集是对MOSI的改进，具有更多的话语数量，样本，扬声器和主题的更大多样性。该数据集包含23453个带注释的视频片段（话语），来自5000个视频，1000个不同的扬声器和250个不同的主题 SIMS/SIMSV2: CH-SIMS数据集[35]是一个中文多模态情感分析数据集，为每种模态提供了详细的标注。该数据集包括2281个精选视频片段，这些片段来自各种电影、电视剧和综艺节目，每个样本都被赋予了情感分数，范围从-1（极度负面）到1（极度正面）；

多模态抑郁检测数据集：

AVEC2019: AVEC2019 DDS数据集是从患者临床访谈的视听记录中获得的。访谈由虚拟代理进行，以排除人为干扰。与上述两个数据集不同的是，AVEC2019中的每种模态都提供了几种不同的特征。例如，声学模态包括MFCC、eGeMaps以及由VGG和DenseNet提取的深度特征。在之前的研究中，发现MFCC和AU姿势分别是声学和视觉模态中两个最具鉴别力的特征。因此，为了简单和高效的目的，我们只使用MFCC和AU姿势特征来检测抑郁症。数据集用区间[0，24]内的PHQ-8评分进行注释，PHQ-8评分越大，抑郁倾向越严重。该基准数据集中有163个训练样本、56个验证样本和56个测试样本。

性能展示

在情感计算任务中，可以看到加入 SimAM 算法后性能有了明显提升，证明了其有效性；在这里插入图片描述

实现过程

在下载附件并准备好数据集并调试代码后，进行下面的步骤，附件已经调通并修改，可直接正常运行；

数据集准备下载附件中多种数据集已提取好的特征文件。把它放在"./dataset”目录。
下载需要的包

<span style="background-color:#f8f8f8"><span style="color:#333333">pip install MMSA</span></span>

进行训练

<span style="background-color:#f8f8f8"><span style="color:#333333">from MMSA import MMSA_run</span></span>

<span style="background-color:#f8f8f8"><span style="color:#333333"><span style="color:#aa5500"># run LMF on MOSI with default hyper parameters</span>
MMSA_run(<span style="color:#aa1111">'tfr_net'</span>, <span style="color:#aa1111">'mosi'</span>, <span style="color:#0000ff">seeds</span><span style="color:#981a1a">=</span>[1111, <span style="color:#116644">1112</span>, <span style="color:#116644">1113</span>], <span style="color:#0000ff">is_tune</span><span style="color:#981a1a">=</span>False, <span style="color:#0000ff">gpu_ids</span><span style="color:#981a1a">=</span>[0], <span style="color:#0000ff">config_file</span><span style="color:#981a1a">=</span><span style="color:#aa1111">"../config/config_regression.json"</span>,
         <span style="color:#0000ff">model_save_dir</span><span style="color:#981a1a">=</span><span style="color:#aa1111">"../saved_models"</span>, <span style="color:#0000ff">res_save_dir</span><span style="color:#981a1a">=</span><span style="color:#aa1111">"../saved_results"</span>)</span></span>