语音情感识别领域-论文阅读笔记1
Fusion Techniques for Utterance-Level Emotion Recognition Combining Speech and Transcripts
融合语音和文字的句段级别情感识别技术
本文是对interspeech会议论文“Fusion Techniques for Utterance-Level Emotion Recognition Combining Speech and Transcripts”的阅读笔记,该文章是多模态情感识别领域的好文章,使用了语音和文本两种模态数据,深度学习网络为LSTM和CNN。
下载地址https://www.isca-speech.org/archive/Interspeech_2019/pdfs/3201.pdf
1.摘要(Abstract)
在人类认知和理解过程中,大量种类不同、彼此互不的不同模态线索被接受。人类交流中的各种情绪状态反映出不同模态线索的多样性。多模态情绪识别最近的进展是利用基于不同种类特征如文本、音频、视频图像的深度学习技术来实现卓越的表现。这篇论文着眼于将跨模态融合技术运用于情感识别的深度学习网络,使用的模态数据为说话人话音和相应的文本记录。
作者研究了长短时记忆循环神经网络(LSTM)使用预训练的词向量(pre-trained word embedding)来进行基于文本的情感识别以及卷积神经网络(CNN)使用话语(段)级别(Utterance-Level)特征描述符来进行基于话音的情感识别。各种融合策略实施在这两种模型上来为每一种情绪类别给出一个综合评分。每一种情绪的模态内部(intra-modality)动态信息被捕获在为特定模态设计的神经网络中。融合技术被设计用于获取跨模态(inter-modality)动态信息。对于这类模态内部联系和跨模态联系的理解可参考论文“Dynamic Fusion with Intra- and Inter-modality Attention Flow for Visual Question Answering“并参考下图。注:下图并非本论文的图,只是用来帮助理解inter-和intra-modalitt。
作者在IEMOCAP多模态情感识别数据库上进行说话人与独立会话实验( Speaker and session-independent experiments)来论证(show)本文提出方法的有效性
关键词:emotion recognition,multi-model,fusion techniques,deep learning
一些名词:
frame-level:帧级别
Utterance-Level:话语级别(段级别),也可以理解成句子级别或者段级别,是一个人说的一段话,比frame级别高。
dialog-level:对话级别,是两个人的对话,情感识别利用自身和两个说话人之间的关系来识别情感。
本文方法的流程图见下图1:
2.文本特征提取(Emotion Recognition from Text)
这一部分主要将特征提取和提出的基于文本的情感识别神经网络框架。特征提取模块为每个语句(utterance)提供了一种表示,其上下文依赖关系在LSTM的神经网络中建模。
2.1特征提取(Feature Extraction)
采用CNN卷积神经网络从话语的转录文本(utterance transcriptions)中提取特征。基于特征提取的神经网络如CNN会学习出输入句子的抽象表达,这些语句中包含有基于单词和单词概率的语义。使用一个带有卷积层和最大池化层的简单CNN网络作为特征提取器。
CNN的输入形式是300维的词向量。这些300维的词向量是基于Fast-Text词嵌入提取的。(简单来说,每个英文单词都会用一个300维词向量表示)。卷积层包含三个卷积核,尺寸分别为f1,f2,f3,同样的,有三个输出通道。我们使用这些卷积核执行一维卷积,然后对其输出执行最大池化(maxpooling)。池化后的特征最终被投影到维度为DT的稠密层上,其经过激活函数后的向量被用作文本表示T∈RDTR^{D_T}RDT。
2.2LSTM循环神经网络(LSTM RNN framework)
架构包含一个LSTM层和三个全连接层。循环网络中的连接获取了上下文信息来对话语给出的文本进行分类。这有利于情感标签分类,因为连续的单词为情感分类提供了额外的线索。每个话语(utterance)DT维的特征数据被喂到time step=N1的LSTM层。全连通层的隐含层节点数N2、N3和N4的数量是递减的,最后一个(N4)的是情感标签类别的数量。
3.话音特征提取(Emotion Recognition from Speech)
在特征提取阶段对每个话语进行声学特征提取,这些声学特征将被用于构建CNN进行情感识别。这个CNN模型叫做联合CNN模型,因为模型的输入是初步融合(early fusion)后的数据,这些数据具有更好的性能。
3.1特征提取(Feature Extraction)
话音信号的特征提取使用到了openSMILE工具箱。interspeech13年的挑战赛上提供了包含6373维静态特征的特征集,称为ComParE特征集,可以通过openSmile开源包来获得。数据集包括LLDs和HSDs。特征集的详细描述可参见这篇描述“https://www.cnblogs.com/liaohuiqiang/archive/2018/12/22/10161033.html”
- LLDs(low level descriptors)LLDs指的是手工设计的一些低水平特征,一般是在一帧语音上进行的计算,是用来表示一帧语音的特征。
- HSDs(high level statistics descriptors)是在LLDs的基础上做一些统计而得到的特征,比如均值,最大值等等。HSDs是对utterance上的多帧语音做统计,所以是用来表示一个utterance的特征。
在这些特征中,我们进行min-max标准化 和基于L2范数的特征选择,将特征维数降低到Ds 。这样低维度的基于话音的特征S∈RDsR^{D_{s}}RDs被用于后续输入。
3.2CNN网络框架(CNN Framework)
用于获取语音情感分类的神经网络由两个ReLU激活的卷积层组成,每个层之后是一个最大池化层。然后是三个全连接层。每个卷积层都有Nf数量的卷积核(filters),每个卷积核的宽度为Nw。卷积层进行单位步长(unit stride)的卷积操作,用于学习情感类别。将第二卷积层的输出扁平化(flattened)后,将其送入两个大小分别为Nc2和Nc3的全连接层。最后输出层的尺寸为情感类别标签的数量。
- Flatten层:用来将输入“压平”,即把多维的输入一维化,常用在从卷积层到全连接层的过渡。Flatten不影响batch的大小
第2节中介绍的基于lstm的模型也可以用于语音。我们观察到,它也提供类似的性能。尽管如此,本工作还是坚持使用CNN进行语音,因为它的融合性能比基于LSTM的系统要好,可能是因为采用了完全不同的建模方法。
4特征融合技术(Fusion Techniques)
该方法结合各模型输出特征用于后期融合(Late Fusion),并将一开始的文本和声学特征连接用于早期融合(Earlt Fusion)。
4.1早期融合(Early Fusion)
早期融合是一种很常见的融合技术。在特征级融合中,我们将通过文本和语音的特征提取阶段得到的特征信息结合起来。话语(一段语句utterance)的最终输入表示是

本文介绍了一种结合语音和文本的深度学习模型,用于改进多模态情感识别。该模型利用LSTM和CNN进行文本和语音的情感分析,并通过早期和后期融合技术整合信息。在IEMOCAP数据集上进行的实验表明,该方法达到了当前最佳的句段级识别性能。
最低0.47元/天 解锁文章
2798





