1.《A multimodal emotion recognition method based on facial expressions and electroencephalography》(BSPC2021二区文章)
(2023.2.27)没什么好总结的,两种模态,面部图片和脑电图,数据用的kaggle面部表情数据库FER2013和公开的脑电图Seed-IV。图像用的卷积,四五层,效果感觉不佳,可以改换resnet50或vit结果试试提升精度。只使用了脑电图,自己做了个小数据集,用硬件设备采集3个人4种情绪,16个视频片段,每种情绪四个片段的数据。用了蒙特卡洛方法来融合多模态决策数据的结果(我觉得是这样的),最终结果我感觉一般般。
2.《Speech Emotion Recognition among Elderly Individuals usingMultimodal Fusion and Transfer Learning》(ICMI2020)
(2023.3.1)使用了87名参与者自发的个人叙述的语音数据。利用迁移学习方法,使用预先训练好的CNN和BERT模型分别提取声学和语言特征,并将它们输入单独的机器学习模型。此外,将这两种模式融合在一个多模式方法中。最佳模型使用了语言方法,其效价的未加权平均回忆(UAR)基线比官方竞争高出8.8%。
音频部分:使用YAMNet,频谱图作为输入。
语言模型:使用Bert,另外我们使用了SBERT模型的多语言版本。与原始BERT一样,该网络为每个故事输出768维的嵌入。我们将向量归一化为零均值和单位方差,然后使用特征向量作为各种机器学习模型的输入。
多模态部分:我们融合了来自声学和语言学方法的特征向量,为每个故事生成1792维的特征向量(图1)。由于每个故事都有几个声学特征向量,我们对每个故事的声学特征向量进行加权和。然后,我们将向量归一化为零均值和单位方差,然后将这些融合向量用作各种机器学习模型的输入。
结果好像接近60%,现在看来并不高。

3.Improved Speech Emotion Recognition using Transfer Learning and Spectrogram Augmentation(ACM 2021)

输入数据:构建并探索了一个基于ResNet的以log-mel谱图为输入特征的系统。提取了高分辨率的频谱图,使模型不仅可以学习各种情绪的频谱包络结构,还可以学习各种情绪的粗谐波结构。
模型:首先在大量扬声器标记的音频数据上训练ResNet34模型。然后,用新的随机初始化的FC层替换预训练模型的FC层。最后,为IEMOCAP数据集上的SER(Speech Emotion Recognition)任务重新训练新的FC层。
统计池化(Statistics pooling)

文章介绍了多种多模态情感和情绪识别方法,包括基于面部表情和脑电图的识别、语音情感识别、ResNet和VIT在图像处理中的应用、迁移学习和SBERT在语言特征提取中的作用、ResNet34在频谱图分析中的应用,以及MEmoBERT预训练模型的提出,该模型通过跨模态学习和基于提示的学习方法改进多模态情感识别的性能。
最低0.47元/天 解锁文章
1604

被折叠的 条评论
为什么被折叠?



