语音识别论文:Comparing the Benefit of Synthetic Training Data for Various Automatic Speech Recognition Arc

声明:我主要从事语音合成,对语音识别的学习主要出于兴趣。文章内容摘要如有错误,还望读者指出,共同​学习进步。

欢迎关注微信公众号:低调奋进


Comparing the Benefit of Synthetic Training Data for Various Automatic Speech Recognition Architectures

本文2021.04.12号由德国亚琛工业大学计算机科学系发布,主要对比使用TTS合成的数据对不同ASR架构的影响,具体的文章链接

https://arxiv.org/pdf/2104.05379.pdf


内容摘要

就目前的ASR架构,主要分为attention encoder-decoder(AED),connectionist-temporal-classification(CTC)和Hybrid ASR​。其中效果最好的还是Hybrid ASR​。本文主要使用TTS进行数据增广,使AED的性能逼近Hybrid ASR​。

本文是TTS和ASR都使用LibriSpeech-100,合成使用的文本是LibriSpeech-360,具体的结果如table 5​所示,主要的结论如下:

1)使用TTS增广数据对AED提升很大,对Hybrid ASR和CTC​相对较小;

2)即使使用TTS增光数据,AED还是无法达到Hybrid ASR的性能;

3)虽然TTS数据对Hybrid ASR影响很小,本文使用LibriSpeech-100来训练Hybrid ASR,在干净和噪声数据集上获得了目前WER较好的3.3%/10%的表现。

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

我叫永强

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值