文章目录
语音识别常用噪声库和混响库
- OPEN SLR17(加性噪声)
这个就是非常出名的MUSAN噪声库,总共约11G,目录包含三个分类:
├── README
├── music
├── noise
├── speech
music中是音乐噪声;
noise包含各种背景噪声;
speech是一些说话人语音;
- 源openslr链接:http://www.openslr.org/resources/17/musan.tar.gz
- 国内源链接:https://openslr.magicdatatech.com/resources/17/musan.tar.gz
(用第二个链接会快一些;)
- OPEN SLR28(混响噪声)
这个混响包含了real和simulated,包含不同房间大小的
- 源openslr链接:http://www.openslr.org/resources/28/rirs_noises.zip
- 国内源链接:https://openslr.magicdatatech.com/resources/28/rirs_noises.zip
参考链接
- https://zhuanlan.zhihu.com/p/94273132
- https://www.zhihu.com/question/278918708/answer/631873989
PS:
- 可以使用torchaudio.sox_effects改变音速和音量,对语音进行进一步增强;
- 可以将这两个库作成lmdb库,在语音相关模型训练时进行在线加噪声和混响,可以参考wekws项目中的add_noise/add_reverb实现。