语音情感识别与增强技术研究
1. 语音情感识别模型ADGCN
1.1 模型设计思路
为了提取有意义的话语内信息,设计了一个适用于基于自监督学习(SSL)的预训练模型Data2vec的适配器。可视化结果证明,预训练模型确实带来了突破。不过,适配器提取的话语内信息无法完全满足实际需求。
对于话语间上下文信息的建模,提出了自适应动态图卷积网络(ADGCN),并引入了两种残差机制:自适应输出残差(AOR)和动态层残差(DLR)。这两种残差部分确保了在充分提取局部和全局话语间上下文信息的同时,不会出现过平滑问题。
1.2 模型性能表现
与当前的话语内方法和话语间方法相比,提出的ADGCN模型在加权准确率(WA)、无加权准确率(UA)和F1分数上分别达到了76.79%、76.20%和76.43%,绝对增量分别超过了4.03%、7.02%和5.05%。提供的混淆矩阵显示,该模型对四种情感类型都具有较高的敏感性。
| 模型 | WA | UA | F1分数 |
|---|---|---|---|
| ADGCN | 76.79% | 76.20% | 76.43% |
| 其他模型 | - | - | - |
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



