Robust多模态模型的开发


✨✨ 欢迎大家来访Srlua的博文(づ ̄3 ̄)づ╭~✨✨

🌟🌟 欢迎各位亲爱的读者,感谢你们抽出宝贵的时间来阅读我的文章。

我是Srlua小谢,在这里我会分享我的知识和经验。🎥

希望在这里,我们能一起探索IT世界的奥妙,提升我们的技能。🔮

记得先点赞👍后阅读哦~ 👏👏

📘📚 所属专栏:传知代码论文复现

欢迎访问我的主页:Srlua小谢 获取更多信息和资源。✨✨🌙🌙

​​

​​​

目录

Robust 多模态模型:寻找遗失的模态!

研究背景

模型结构和代码

数据集介绍

性能展示

实现过程

运行过程


需要本文的详细复现过程的项目源码、数据和预训练好的模型可从该地址处获取完整版:地址

Robust 多模态模型:寻找遗失的模态!

在这里插入图片描述

  • 近年来,随着网络视频的大量涌现,各种多模态任务日益备受关注。尽管取得了显著的进展,但在迈向稳健多模态交互的道路上仍面临两大挑战: 1)在未对齐多模态数据中建模跨模态交互时效率低下; 2)在现实环境中通常会发生的随机模态特征缺失的脆弱性。

  • 其中,提高对数据丢失的鲁棒性已成为多模态任务的核心挑战之一,其目的是从语言,视觉和声学信号中完成多模态任务。针对模态特征不完备的情况,目前主要提出了基于修正的方法和张量正则化方法。然而,这两种方法都无法科普非对齐序列中随机模态特征的缺失。

本文提出了一种 Robust 的多模态模型来提高模型对非对齐模态序列随机缺失的鲁棒性。

  • 同时,我在流行的多模态任务–多模态情感计算的数据集上对模型进行了测试,得到了不错的效果,证明了该模型的可靠性。具体来说,我们使用了MOSI,MOSEI,以及两个中文数据集 SIMS, SIMSv2,以及抑郁症数据集AVEC2019,为医学心理学等领域提供帮助。 在这里插入图片描述

  • 【注】 我们文章中所用到的数据集,都经过重新特征提取形成新的数据集特征文件(.pkl),另外该抑郁症数据集因为涉及患者隐私,需要向数据集原创者申请,申请和下载链接都放在了我们附件中的 readme文件中,感兴趣的小伙伴可以进行下载,谢谢支持!

研究背景

  • 随着用户生成的在线内容的丰富,各种多模态任务层出不穷。使用手动对齐的完整信息,包括转录语言,音频和视频,以前的工作已经取得了显着的改进多模态任务。然而,用户生成的视频通常是不完美的。首先,不同模态的接收器可能具有可变的接收频率,这导致不对齐的性质。其次,如下图所示,许多不可避免的因素,如用户生成的视频中的噪声或传感器故障,可能会导致模态特征提取器的故障。在这种情况下,需要一种能够处理随机模态特征缺失(RMFM)的模型。因此,在多模态任务中构建能够处理RMFM的模型仍然是一个开放的研究。基于RMFM的多模态任务的核心问题在于不完整模态序列的语义稀疏性,导致难以提取鲁棒的模态表示。据我所知,目前的工作大多直接使用具有缺失惩罚的不完整模态序列来学习联合融合表示。 在这里插入图片描述

模型结构和代码

在这里插入图片描述在这里插入图片描述

  1. 单模态特征提取 模态特征提取模块首先用一维卷积层处理不完整的模态序列,以确保输入序列的每个元素都知道其相邻元素。 公式的排版如下:

在这里插入图片描述在这里插入图片描述

  1. 模态重建模块 我们提出了一个模态重建(MR)模块,基于这样一个关键观点:从提取的模态序列中重建完整的模态序列,可以引导提取模块学习缺失部分的语义。对于每种模态,首先在特征维度上执行自注意力机制,以捕获提取特征之间的交互。

在这里插入图片描述

数据集介绍

  1. 多模态情感计算数据集:

CMU-MOSI: CMU-MOSI数据集是MSA研究中流行的基准数据集。该数据集是YouTube独白的集合,演讲者在其中表达他们对电影等主题的看法。MOSI共有93个视频,跨越89个远距离扬声器,包含2198个主观话语视频片段。这些话语被手动注释为[-3,3]之间的连续意见评分,其中-3/+3表示强烈的消极/积极情绪; CMU-MOSEI: CMU-MOSEI数据集是对MOSI的改进,具有更多的话语数量,样本,扬声器和主题的更大多样性。该数据集包含23453个带注释的视频片段(话语),来自5000个视频,1000个不同的扬声器和250个不同的主题 SIMS/SIMSV2: CH-SIMS数据集[35]是一个中文多模态情感分析数据集,为每种模态提供了详细的标注。该数据集包括2281个精选视频片段,这些片段来自各种电影、电视剧和综艺节目,每个样本都被赋予了情感分数,范围从-1(极度负面)到1(极度正面);

  1. 多模态抑郁检测数据集:

AVEC2019: AVEC2019 DDS数据集是从患者临床访谈的视听记录中获得的。访谈由虚拟代理进行,以排除人为干扰。与上述两个数据集不同的是,AVEC2019中的每种模态都提供了几种不同的特征。例如,声学模态包括MFCC、eGeMaps以及由VGG和DenseNet提取的深度特征。在之前的研究中,发现MFCC和AU姿势分别是声学和视觉模态中两个最具鉴别力的特征。因此,为了简单和高效的目的,我们只使用MFCC和AU姿势特征来检测抑郁症。数据集用区间[0,24]内的PHQ-8评分进行注释,PHQ-8评分越大,抑郁倾向越严重。该基准数据集中有163个训练样本、56个验证样本和56个测试样本。

性能展示

在情感计算任务中,可以看到加入 SimAM 算法后性能有了明显提升,证明了其有效性; 在这里插入图片描述在这里插入图片描述

实现过程

在下载附件并准备好数据集并调试代码后,进行下面的步骤,附件已经调通并修改,可直接正常运行;

  1. 数据集准备 下载附件中多种数据集已提取好的特征文件。把它放在"./dataset”目录。

  2. 下载需要的包

<span style="background-color:#f8f8f8"><span style="color:#333333">pip install MMSA</span></span>
  1. 进行训练

<span style="background-color:#f8f8f8"><span style="color:#333333">from MMSA import MMSA_run</span></span>
<span style="background-color:#f8f8f8"><span style="color:#333333"><span style="color:#aa5500"># run LMF on MOSI with default hyper parameters</span>
MMSA_run(<span style="color:#aa1111">'tfr_net'</span>, <span style="color:#aa1111">'mosi'</span>, <span style="color:#0000ff">seeds</span><span style="color:#981a1a">=</span>[1111, <span style="color:#116644">1112</span>, <span style="color:#116644">1113</span>], <span style="color:#0000ff">is_tune</span><span style="color:#981a1a">=</span>False, <span style="color:#0000ff">gpu_ids</span><span style="color:#981a1a">=</span>[0], <span style="color:#0000ff">config_file</span><span style="color:#981a1a">=</span><span style="color:#aa1111">"../config/config_regression.json"</span>,
         <span style="color:#0000ff">model_save_dir</span><span style="color:#981a1a">=</span><span style="color:#aa1111">"../saved_models"</span>, <span style="color:#0000ff">res_save_dir</span><span style="color:#981a1a">=</span><span style="color:#aa1111">"../saved_results"</span>)</span></span>

运行过程

训练过程 在这里插入图片描述​ 最终结果 在这里插入图片描述

需要本文的详细复现过程的项目源码、数据和预训练好的模型可从该地址处获取完整版:地址

 ​​​

希望对你有帮助!加油!

若您认为本文内容有益,请不吝赐予赞同并订阅,以便持续接收有价值的信息。衷心感谢您的关注和支持!

CMU-MOSEI数据集是自然语言处理和人工智能领域的一个重要资源,主要用于情感分析的研究和应用。它是由卡内基梅隆大学(Carnegie Mellon University,简称CMU)的研究人员创建的,MOSEI是Multimodal Opinion, Sentiment, and Emotion Intensity的缩写,意味着该数据集包含了多模态的意见、情感和情感强度信息。 该数据集的独特之处在于它不仅包含了文本信息,还包括语音的音调、语速、强度等声音特征,以及视频中的面部表情和肢体动作等视觉信息。这种多模态的数据特性使得MOSEI成为研究者们进行深度学习和机器学习,特别是跨模态情感分析的理想选择。 MOSEI数据集覆盖了多种类型的情感表达,包括积极、消极、中性以及更细微的情绪差异。情感强度的量化也是其特色之一,数据集通过0到5的评分系统标记了情感的强度,使得研究者可以不仅仅研究情感的类别,还可以研究情感的强弱程度。 在数据集的构建过程中,研究人员录制了大量视频,然后邀请了专业的标注者对这些视频中的话语进行情感分析和评分。这个过程涉及到声音和视觉信号的自动检测以及语言内容的语义理解,对人工智能算法的识别能力和语义分析能力提出了挑战。 由于数据集的规模较大,并且涵盖了复杂的情感表达模式,它成为了人工智能领域内进行情感分析研究的重要基准数据集。研究者可以使用MOSEI进行单模态或多模态的情感分析任务,比如情感分类、情感强度预测、跨模态情感同步分析等。 使用MOSEI数据集进行研究时,研究者可以采用深度学习的最新技术,如卷积神经网络(CNN)、循环神经网络(RNN)、长短期记忆网络(LSTM)、Transformer模型等,来处理和分析文本、音频和视频数据。此外,多模态学习方法如early fusion、late fusion、以及多模态融合网络等也被广泛应用于处理MOSEI数据集,以期达到更好的情感分析效果。 MOSEI数据集的推出,极大促进了自然语言处理、计算机视觉和语音处理等多个领域的交叉融合研究。它不仅为研究情感分析的学者提供了宝贵的资源,也为开发更加智能和人性化的交互系统奠定了基础。通过这些研究,未来的机器人和智能助手将更加理解用户的情感状态,并作出更合适的反应。 随着人工智能技术的不断进步,CMU-MOSEI数据集也在不断更新和扩充,其在情感分析领域的重要性日益凸显,成为了推动该领域研究不断向前发展的关键力量。通过这个数据集,研究者们可以不断探索新的算法,以期达到更准确、更快速的情感识别和分析。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值