15、多模态语音情感识别与边缘计算分布式学习性能分析

多模态语音情感识别与边缘计算分布式学习性能分析

1. 多模态语音情感识别方法

1.1 提出方法的准确性优势

在多模态语音情感识别中,提出的方法在未加权准确率(UA)和加权准确率(WA)方面表现出色。与其他显著的参考方法相比,该方法在 UA 上分别实现了 10.88%、15.18%、18.18% 和 3.88% 的提升;在 WA 上也分别超越了部分方法 6.01%、9.31% 和 4.11%。具体数据如下表所示:
| 方法 | Params | FLOPs | 准确率(%) | |
| — | — | — | — | — |
| | | | UA | WA |
| 仅文本 | 109M | 0.00683G | 57.67 | 57.77 |
| 仅音频 | 72M | 1.73G | 57.56 | 58.41 |
| SERVER | 181M | 1.74G | 63.00 | 63.10 |
| 提出的方法 | 203M | 1.74G | 79.96 | 80.66 |

1.2 模型复杂度与性能对比

虽然提出的 3M - SER 方法具有最高的复杂度,但性能有显著提升。从表中可以看出,尽管其参数数量和浮点运算次数相对较多,但在准确率上远超其他方法。

1.3 多头注意力融合机制

提出了一种新颖的多头注意力融合机制来提高多模态语音情感识别的准确性。通过注意力机制学习从 BERT 和 VGGish 分别提取的文本嵌入和音频嵌入,有助于模型更好地理解文本和音频的含义。实验结果表明,该方法在 IEMOCAP 数据集上实现了最高的 UA(79.

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值