语音去混响与汽车发动机声音模拟技术研究
1. 语音去混响技术
在语音识别中,混响会严重影响识别的准确性,因此语音去混响至关重要。为了提高语音识别系统在混响环境下的性能,研究人员提出了多种方法,其中基于生成对抗网络(GAN)的方法受到了广泛关注。
1.1 实验设置
- 特征提取 :从混响和纯净语音中提取MFCC特征,帧长为512,帧移为256。将混响语音和纯净语音的MFCC特征作为DNN声学模型的输入。
- 解码阶段 :使用具有明确发音和静音概率建模的三元语言模型进行解码。
1.2 对比实验
为了评估不同模型的性能,进行了以下对比实验:
| 实验类型 | 描述 |
| — | — |
| Unprocessed | 将13维混响MFCC特征直接输入后端语音识别系统,不进行语音去混响前端处理。 |
| GAN | 使用基于DNN的GAN模型进行语音去混响前端处理。DNN模型由三个隐藏层组成,每个隐藏层有512个隐藏单元,输入特征为13维混响MFCC。 |
| BU - GAN | 将传统GAN的生成器部分替换为任务自适应GAN的生成器,生成的特征是增强MFCC特征、BNF和无监督特征的41维拼接。 |
| Task - Adaptive GAN | 提出的任务自适应生成对抗网络,对生成器和适配器损失函数中不同目标的权重值进行了多次不同实验。 |
1.3 实验结果
实验结果表明:
- 传统G
超级会员免费看
订阅专栏 解锁全文
8411

被折叠的 条评论
为什么被折叠?



