音频视觉情感语音识别及语音转文本翻译中音频质量的重要性
在当今的科技领域,音频视觉情感语音识别以及语音转文本翻译系统都是备受关注的研究方向。下面将为大家详细介绍相关的研究成果和发现。
音频视觉情感语音识别的新方法
在音频视觉情感语音识别方面,提出了一种名为 EMO - AVSR 的方法。该方法在 CREMA - D 语料库上进行了评估,结果显示它相较于经典方法有着显著的优势。
准确性提升
通过实验对比,展示了不同模型的平均准确率(mAcc),具体数据如下表所示:
| 模型 | mAcc |
| — | — |
| Baseline | 87.7 |
| ASR | 93.2 |
| VSR | 90.3 |
| AVSR | 95.6 |
从表中可以看出,与仅在中性短语上训练的基线模型相比,所提出的方法使短语识别准确率提高了 7.3%。而且,与使用 3DCNN 模型在同一语料库上进行视觉语音识别(VSR)任务的方法相比,采用基于 (2 + 1)D + BiLSTM 的 VSR 方法,准确率高出了 19.4%(73.3% vs. 92.7%)。
实时处理能力
该方法还具备实时处理的能力。在使用英特尔 i9 CPU 处理 2 秒的音频片段时,总共耗时 1.44 秒,具体的时间分配如下:
1. 视觉预处理:0.4 秒
2. 语音情感识别(VER):0.04 秒
3. 自动语音识别(ASR):0.2 秒
4. 视觉语音识别(VSR):0.8 秒
并且,在处理过程中没有进行任何模型转换
超级会员免费看
订阅专栏 解锁全文
1396

被折叠的 条评论
为什么被折叠?



