语音识别-语音增强-加噪声混响

文章介绍了两个常用的语音识别噪声和混响资源库,分别是OPENSLR17的MUSAN库,包含音乐、噪声和说话人语音,以及OPENSLR28的RIRS_NOISES库,提供真实和模拟的混响数据。这些资源可用于训练模型时的在线噪声和混响添加,如wekws项目所示,可以通过torchaudio.sox_effects处理音频的音速和音量,并可以转化为lmdb库。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

文章目录


语音识别常用噪声库和混响库

  1. OPEN SLR17(加性噪声)

这个就是非常出名的MUSAN噪声库,总共约11G,目录包含三个分类:
├── README
├── music
├── noise
├── speech

music中是音乐噪声;
noise包含各种背景噪声;
speech是一些说话人语音;

  • 源openslr链接:http://www.openslr.org/resources/17/musan.tar.gz
  • 国内源链接:https://openslr.magicdatatech.com/resources/17/musan.tar.gz
    (用第二个链接会快一些;)
  1. OPEN SLR28(混响噪声)

这个混响包含了real和simulated,包含不同房间大小的

  • 源openslr链接:http://www.openslr.org/resources/28/rirs_noises.zip
  • 国内源链接:https://openslr.magicdatatech.com/resources/28/rirs_noises.zip

参考链接

  • https://zhuanlan.zhihu.com/p/94273132
  • https://www.zhihu.com/question/278918708/answer/631873989

PS:

  • 可以使用torchaudio.sox_effects改变音速和音量,对语音进行进一步增强;
  • 可以将这两个库作成lmdb库,在语音相关模型训练时进行在线加噪声和混响,可以参考wekws项目中的add_noise/add_reverb实现。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值