语音增强与脑电信号身份识别技术研究
1. 语音增强技术:ATT模型的卓越表现
在语音增强领域,不同模型的学习参数数量存在显著差异。以下是不同模型的学习参数数量对比:
| 模型 | 参数(百万) |
| — | — |
| SEGAN Generator | 74.13 |
| SETransformer | 6.57 |
| ATT Generator(提议) | 6.57 |
为了清晰展示所提算法的效果,研究选取了SEGAN和SETransformer这两种对比算法,分析它们对增强语音的频谱图和时域波形的影响。通过对比ATT增强语音样本与噪声语音、SEGAN增强语音、SETransformer增强语音以及纯净语音的时域波形和频谱图,可以发现ATT增强语音能有效降低语音信号中的干扰噪声,在频域和时域上都更接近纯净语音。此外,SEGAN会将语音的清音部分当作噪声进行抑制,而ATT在这方面表现更优。
在VoiceBank + DEMAND数据集上的实验结果如下:
| 模型 | PESQ | CSIG | STOI | CBAK | SSNR | COVL |
| — | — | — | — | — | — | — |
| 噪声语音 | 1.96 | 3.33 | 0.92 | 2.44 | 1.68 | 2.62 |
| SEGAN | 2.16 | 3.54 | 0.93 | 3.00 | 8.47 | 2.84 |
| SETransformer | 2.45 | 1.01 | 0.93 | 2.99 | 8.18 | 1.26 |
| ATT(提议) | 2.55 |
超级会员免费看
订阅专栏 解锁全文
3319

被折叠的 条评论
为什么被折叠?



