语音情感识别中LSTM模型性能比较与电力系统谐波分量估计
语音情感识别中LSTM模型性能比较
在语音情感识别(SER)领域,不同的模型架构表现各异。这里主要探讨LSTM和CNN - LSTM两种架构。
-
模型架构
- LSTM架构 :由三个LSTM单元后面接一个扁平化层构成。扁平化层作为一个具有285个神经元和ReLu激活函数的密集层的输入,接着是一个Dropout层和一个密集层,最终给出预测结果。
- CNN - LSTM架构 :包含学习输入局部特征的局部特征学习块(LFLB)和一个用于长期依赖计算的LSTM单元。LFLB块由卷积滤波器、批量归一化和指数线性单元(ELU)激活函数组成。池化和Dropout层用于降维。
- 训练设置 :模型训练以64个样本为一批次输入,使用“Adam”作为优化器,学习率为1e - 3。与修正线性单元(ReLu)不同,ELU具有负激活,能使均值更接近零,从而实现更快的学习和收敛。它对非负输入执行恒等操作,对负输入执行指数非线性操作。两种架构的输出层都采用全连接的softmax激活函数,用于预测语音的情感标签。批量归一化用于更好更快的训练。
-
数据集与特征提取
- 数据集 :采用Ryerson音频 - 视频情感语音数据库(RAVDESS),包含12
超级会员免费看
订阅专栏 解锁全文
104

被折叠的 条评论
为什么被折叠?



