三区,魔改transformer系列只摘重点,不再全文翻译
妈的,这种文章创新点体现在哪啊?,,,,
并且这篇文章为什么没给自己的模型取个名字......我真不懂了
简单而有效的多模态融合模块 / 在融合的多模态特征上结合情感级嵌入(?)
method
我们提出的方法的体系结构。它由三个主要模块组成:
(1)包含三个文本、视觉和声学模态特征提取器的主干模块;
(2)一个基于transformer的融合模块,用于处理和融合多模态信息;
(3)一个情感级嵌入和分类头模块,用于将融合的多模态特征与情感级表示相匹配,并输出最终的情感预测。
该模型由三个模块组成:特征提取模块、多模态融合模块和情感层次嵌入模块。
特征提取
对于视觉(视频帧)和声学(Mel谱图块)模式,我们使用两个单独的CNN网络(从头开始训练)作为每个模式的