Aurora2 语音数据库的建立

        Aurora2 语音数据库 经常在学术上被用来作为评测数据库,很多语音识别的base数据库,HTK的训练模型数据库,VAD,基频检测都用Aurora2语音数据库。

       Aurora2语音数据库的具体情况可以参考 http://aurora.hsnr.de/aurora-2.html,大致含义是 这个数据库是由 TIDigits 数据库 变换过来的,说白了就是 降采样之后 加了不同的信噪比的噪声。

       Aurora2数据库是8k的(其实8k早先年在电话语音通讯标准中用的比较多),TIDigits 数据库是20k的(为啥是20k这么奇怪的数据库我也不清楚),TIDigits 是包含成人和儿童的语音库,只说数字(英文的,不是壹贰叁是one two three),Aurora2用的是TIDigits 的成人部分。

       Aurora2的创建过程,就是通过工具(这个工具网站提供了叫 FaNT)http://aurora.hsnr.de/download.html

这是一个滤波+增加指定信噪比的工具,原则上使用这个工具就可以造出这个含噪语音库。我刚好有TIDigits (别问我为啥有)另外我也发现了不少有用的结果,可以获得含噪语音库的list,那么基本素材如果全了的话,我就可以自己造这个数据库了。

       1、工具

          网站提供了 http://dnt.kr.hsnr.de/aurora/download/fant.tar.gz需要自己编译,这是GNU的C,用vc稍微改下就没什么问题,这个工具我觉得牛叉的地方就是在于能加指定的信噪比,而且信号能量判定方法是遵循 ITU p.56 怎么计算signal level,感兴趣的同学可以自己下来看看,提供两种方法 来计算 信号level

     Active speech level shall be measured and reported in decibels relative to a stated reference according to the methods described below, namely:
–  Method A – Measuring a quantity called speech volume, used for the purpose of real-time control of speech level (see clause 4);
–  Method B – Measuring a quantity called active speech level, used for other purposes (see clause 5).

        2、文件list

TIDigits  这里面的东西可多了,Aurora2  只选择其中的部分,另外它分成几个部分:

训练集1,clean data,干净的 8440个,降采样至8k,完了之后用G712 滤波器之后不加任何噪声,55个男人和55个女人。

训练集2,multi-condition 复合条件的含噪的,8440个数据 分成20组,422 * 20(subset) = 8440,   52个男人和52个女人,对于一个子集,每个人的话都要出现过。

测试集 4004个集上的不同变体,他分成三种测试集

testA 要用 G712 滤波器,四种噪声,   (subway)train(N1)/babble(N2)/car(N3)/exhibition hall(N4) 4004*7 = 28028 个数据
testB 要用 G712 滤波器,另外四种噪声 restaurant(N5)/street(N6)/airport(N7)/train station(N8),   同上   28028 个数据
testC 要用 MRIS滤波器,只有2种噪声 subway, street

你肯定要问G712和MRIS有什么区别,MIRS ,他们简单的说是滤波器,用来模拟通讯信道中的acoustics 传输路径,具体如下:

上面的test集中就是为了覆盖不同的声道特性(G712和MIRS)不同的噪声(两拨噪声N1~N4,N5~N6,我check过,testA和testB的基础list没什么差别,差别就是噪声不同,而且都用G712)不同的信噪比(clean,SNR-5,SNR0,SNR5,SNR10,SNR15,SNR20)

扯远了,现在说到list,我们从 vad检测的一些结果:http://kom.aau.dk/~zt/online/rVAD/

这是一个vad算法,但它提供了 Reference VAD for Aurora 2 database 的测试结果,我们下来之后,train中的clean的list就有了,8440个数据,齐刷儿滴啊~

稍微解释一下,这里面文件的首字母,M和F就是指 男,女,ST是某个人名的缩写,具体是什么就不清楚了,TIDigits 都是这样的缩写,而且只用两个字母

同样,测试集中的testA testB, testC的list我们也有了

我们从这个网站中找到 Aurora2作为pitch验证算法的数据库的测试结果

https://www.microsoft.com/en-us/download/details.aspx?id=52498

注意,没有找到 multi-condition条件下的训练集(就是clean和含噪声的都有,用来做训练的),我估计用这个做实验的比较少,再说四个中能找到三个已经不错了,呵呵,你还要啥自行车?

    3、得到噪声样本和对应关系

噪声样本可以从下面获得:https://www.ee.columbia.edu/~dpwe/sounds/

噪声样本都是8k的

Aurora2书库中的名字都是N1,N2命名的,这里面N1~N8有个对应关系,我们从一些论文上可以获得:

A Novel Framework for Noise Robust ASR using Cochlear Implant-like Spectrally Reduced Speech

实际上就是上面的顺序

总结:

      1、制作的数据库只能说是“伪“或者“准“,并不是原本的Aurora2的数据库,理由有2,一个是降采样,我这里用的是sox的降采样,原始的Aurora2的制作过程用的什么降采样?那就不得而知了,我只能说我听过sox的将采样结果,效果还可以

注意:sox也有高端采样率,不care时间功耗话也可以用的

http://sox.sourceforge.net/SoX/Resampling

http://src.infinitewave.ca/

   2、加噪声的位置是随机的,噪声足够长,但是加噪工具是随机选择reference噪声位置给加上的,说白了,你两次给加的噪声情况还不一样!

  3、不过制作过程是严格follow 他的文档,嗯,等哪一天有了真正的数据库,可以做一些comparison

 

 

 

 

 

 

 

 

 

 

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值