SER 语音情感识别-论文笔记5
《MULTI-HEAD ATTENTION FOR SPEECH EMOTION RECOGNITION WITH AUXILIARY LEARNING OF GENDER RECOGNITION》
2020年ICASSP
前言
提出了一种基于对数梅尔滤波器组能量(LFBE)谱特征的多头注意深度学习语音情感识别网络。多头注意和位置嵌入共同关注来自同一LFBE输入序列的不同表示的信息。位置嵌入通过识别特征在序列中的位置,有助于关注主导情绪特征。除了多头注意和位置嵌入外,还将性别识别作为辅助任务应用于多任务学习。辅助任务有助于学习影响语音情感特征的性别特征,并提高语音情感识别的准确性,而语音情感识别是首要任务。本文在IEMOCAP数据集上进行了所有实验,最终能够实现76.4%的总体准确率和70.1%的平均class准确率。
一、数据集
南加州大学的交互式情绪运动捕捉**(UCS-IEMOCAP)语料库**是多模态数据集。它包含大约12小时的视听数据,包括语音、视频、面部运动动态捕捉和文本转录。它由五个二元会话组成,演员在其中即兴表演或脚本场景,特别是为了表现情感表达。在本文中,使用即兴的原始音频样本,因为脚本内容与标记的情感有很强的相关性,即兴语料库在许多方面与自然语音相似,并引发IEMOCAP数据集研究中提到的更强烈的情感。除了上述原因,之前发表在语音情感识别上的大部分工作和最新成果都是基于即兴数据集,特别是关于四种情感——中性、快乐、悲伤和愤怒。
从IEMOCAP中提取的四个实验类的组成偏向于中性情绪,这代表了总数据集的49%。剩下的三个情绪类别包括约12%的愤怒、27%的悲伤和12%的快乐。由于四个类别之间存在数据不平衡,本文给出了测试数据的加权平均(WA)或总体精度,以及未加权平均(UA)或平均类别精度。
同时还给出了所有实验的四类混淆矩阵。数据集按80:20的比例分割,用于训练和测试,所有结果以五倍交叉验证报告。对于训练数据集和测试数据集,情绪类别和性别的表示是平均分布的。
二、特征
一种基于对数梅尔滤波器组能量(LFBE)谱特征
- 原始音频的预处理
IEMOCAP数据库包含长度从一秒到20秒不等的语音。音频文件的采样率为

提出一种基于多头注意力机制的语音情感识别方法,采用位置嵌入和多任务学习提高识别准确性。实验证明,在IEMOCAP数据集上,该方法取得了76.4%的总体准确率。
最低0.47元/天 解锁文章
2万+





