30、语音增强与脑电信号身份识别技术研究

最新推荐文章于 2025-08-23 10:28:18 发布

gitlab7runner

最新推荐文章于 2025-08-23 10:28:18 发布

阅读量19

点赞数

CC 4.0 BY-SA版权

分类专栏： SPECOM 2023精华解读文章标签：语音增强 ATT模型 SEGAN

本文链接：https://blog.youkuaiyun.com/gitlab7runner/article/details/151701492

SPECOM 2023精华解读专栏收录该内容

67 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

语音增强与脑电信号身份识别技术研究

1. 语音增强技术：ATT模型的卓越表现

在语音增强领域，不同模型的学习参数数量存在显著差异。以下是不同模型的学习参数数量对比：
| 模型 | 参数（百万） |
| — | — |
| SEGAN Generator | 74.13 |
| SETransformer | 6.57 |
| ATT Generator（提议） | 6.57 |

为了清晰展示所提算法的效果，研究选取了SEGAN和SETransformer这两种对比算法，分析它们对增强语音的频谱图和时域波形的影响。通过对比ATT增强语音样本与噪声语音、SEGAN增强语音、SETransformer增强语音以及纯净语音的时域波形和频谱图，可以发现ATT增强语音能有效降低语音信号中的干扰噪声，在频域和时域上都更接近纯净语音。此外，SEGAN会将语音的清音部分当作噪声进行抑制，而ATT在这方面表现更优。

在VoiceBank + DEMAND数据集上的实验结果如下：
| 模型 | PESQ | CSIG | STOI | CBAK | SSNR | COVL |
| — | — | — | — | — | — | — |
| 噪声语音 | 1.96 | 3.33 | 0.92 | 2.44 | 1.68 | 2.62 |
| SEGAN | 2.16 | 3.54 | 0.93 | 3.00 | 8.47 | 2.84 |
| SETransformer | 2.45 | 1.01 | 0.93 | 2.99 | 8.18 | 1.26 |
| ATT（提议） | 2.55 |