大家好,上期小君给大家分享了语速对语音引擎识别的影响,相信大家对语速对识别的影响有了初步的认识。经过一个多月的调研,小君本期给各位带来了一次新的评测,即科大讯飞,百度,思必驰,云知声四家语音引擎在降噪性能上的差异。
本次评测主要是对比每家语音识别引擎降噪性能,采取将语音文件直接送接口的方式进行测试,接口同样是基于各家公司给广大语音开发爱好者提供的开源开发接口。
测试语音信息详情如下:
• 音频编码格式:wav
• 音频采样率:16000Hz
• 文本字数:每条平均8字左右,共计1586字。
• 音频分类:安静环境下音频、SNR=15环境下音频、SNR=5环境下音频(SNR为信噪比)
• 音频领域:手机基本操作,领域涉及有常用应用,导航,音乐,天气,设置,日期6个领域,共计200条
• 音频信息:北方自然语速,男女比例1:1,共计20人
• 噪音合成:采取噪音合成的方式对纯净音频进行加噪
• 噪音:中文歌曲
展示一下文本样例:
- 导航领域:请帮我绕开从王府井到西单的拥堵地段
- 设置领域:设置每周一早上7点的闹钟
- 手机基本操作领域:发短信给小明
由于本次测试采取的是直接将数据送入识别接口的方式进行,没有类似于终端产品对整个环境的收音模块,所以噪音不能直接以播放的方式进行增加,但咱们还得测试不同信噪比下的数据呢,难不倒小君的,小君有噪音合成工具!可以将选定的噪音数据与语音数据进行,且SNR可设定,问题解决,而且还能更好的保证噪音数据一致性!
语音识别引擎在噪音消除方面的性能好坏会基于产品的定位,对不同的噪音也会有不同的处理方式,本次小君选取噪音集为常用噪音集,中文歌曲;由于本次测试专注于降噪算法的对比,为了减少变量、保证数据一致性,选取的语音数据为消音室录制的语料。
测试数据的信息大家了解的差不多了,那让我们来看一下对比结果,来分析各引擎的优缺点吧。
首先我们通过识别引擎在不同噪音环境下进行识别率的对比,通过下图数据可以看出科大讯飞和思必驰在三种环境下识别率差异不大,识别率从安静环境到SNR=5环境下降了1%左右,表现较好。百度在安静条件的语音识