Jointly Fine-Tuning “BERT-like” Self Supervised Models to Improve Multimodal Speech Emotion Recognition
项目介绍
在现代人工智能领域,多模态情感识别技术正逐渐成为研究的热点。本文要推荐的开源项目——Jointly Fine-Tuning “BERT-like” Self Supervised Models to Improve Multimodal Speech Emotion Recognition,正是这一领域的杰出代表。该项目基于PyTorch框架,利用预训练的Roberta和Speech-BERT模型,实现了高效的多模态情感识别。
项目技术分析
Fairseq架构的灵感
- Fairseq接口基础:该项目代码结构建立在Fairseq接口之上。Fairseq是由Facebook AI团队开发的开源项目,集成了多种先进的序列数据处理架构。
- 优化机制:Fairseq包含了一系列先进的优化机制,如早期停止、学习率预热、学习率调度器等。
- 架构兼容性:项目致力于开发与Fairseq接口兼容的自定义架构。
自定义架构与Fairseq接口的融合
- 架构整合:通过终端命令(args)访问Fairseq内置架构,项目在此基础上进行了扩展。
- 教程参考:遵循Fairseq提供的Roberta自定义分类任务教程,构建了新的架构。
- 目录扩展:在Fairseq接口的多个目录中插入新内容,包括
fairseq/data
、fairseq/models
、fairseq/modules
、fairseq/tasks
和fairseq/criterions
。
项目及技术应用场景
应用领域
- 情感分析:在社交媒体、客服系统等领域,通过语音和文本数据综合分析用户情感。
- 人机交互:提升智能助手、虚拟角色的情感识别能力,使其更具人性化。
- 心理健康监测:辅助心理健康评估,通过语音和文本数据识别潜在的心理问题。
数据预处理
- 文本数据:使用Roberta分词器对文本进行分词,并保存为单独的文本文件。
- 语音数据:参考提供的
convert_aud_to_token.py
脚本进行预处理。 - 预处理的 datasets:预处理后的数据集及其标签可在提供的Google Drive链接中找到。
项目特点
主要脚本分类
- 自定义数据加载器:
fairseq/data/raw_audio_text_dataset.py
用于加载原始音频、面部帧和文本数据。 - 情感预测任务:
fairseq/tasks/emotion_prediction.py
定义了情感预测任务。 - 自定义模型架构:
fairseq/models/mulT_emo.py
实现了类似Roberta和wav2vec的自定义架构。 - 交叉注意力机制:修改Fairseq原始自注意力脚本,相关代码在
fairseq/modules/transformer_multi_encoder.py
和fairseq/modules/transformer_layer.py
中。 - 自定义损失函数及评估脚本:
fairseq/criterions/emotion_prediction_cri.py
包含自定义损失函数和评估脚本。
预训练模型要求
- 语音特征:使用VQ-wav2vec预训练模型。
- 文本特征:使用Roberta预训练模型。
终端命令
项目遵循Fairseq终端命令进行模型训练和验证,提供了详细的命令参数和使用说明。
结语
Jointly Fine-Tuning “BERT-like” Self Supervised Models to Improve Multimodal Speech Emotion Recognition项目以其强大的技术基础和广泛的应用前景,无疑是多模态情感识别领域的一颗新星。无论你是研究人员还是开发者,这个项目都值得你深入探索和应用。
立即访问项目链接,开启你的多模态情感识别之旅!
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考