(IS 19)wav2vec: Unsupervised Pre-training for Speech Recognition

本文介绍了一种名为wav2vec的无监督预训练方法,旨在通过学习原始音频的表示来改善语音识别系统。该方法在大量未标记音频数据上训练,然后将得到的表示用于提升声学模型的性能。实验结果表明,wav2vec能显著降低基于字符的语音识别系统的错误率,尤其是在资源有限的情况下。

会议:INTERSPEECH 2019
论文:wav2vec: Unsupervised Pre-training for Speech Recognition
作者:Steffen Schneider, Alexei Baevski, Ronan Collobert, Michael Auli

Abstract

我们通过学习原始音频的表示,探索语音识别的无监督预训练。 在大量未标记的音频数据上对wav2vec进行训练,然后将所得表示形式用于改进声学模型训练。 我们预训练了通过噪声对比二进制分类任务优化的简单多层卷积神经网络。 当只有几个小时的转录数据可用时,我们在WSJ上进行的实验将基于字符的强大log-mel滤波器组基线的WER降低多达36%。 我们的方法在nov92测试集上达到了2.43%的WER。 这优于“深度语音2”(Deep Speech 2),后者是文献中报道最多的基于字符的系统,同时使用的标签训练数据少了三个数量级。

5. Conclusions

我们介绍了wav2vec,这是无监督预训练在具有完全卷积模型的语音识别中的首次应用。 我们的方法在WSJ的测试集上达到了2.43%的WER,其结果优于文献[1]中的下一个最著名的基于字符的语音识别模型,同时使用的转录数据少了三个数量级。 我们表明,更多的预训练数据可以提高性能,并且这种方法不仅可以改善资源匮乏的设置,还可以改善使用所有WSJ训练数据的设置。 在以后的工作中,我们将研究可能会进一步提高性能的不同体系结构。

1. Introduction

当前用于语音识别的最新模型需要大量的转录音频数据才能获得良好的性能[1]。最近,神经网络的预训练已成为一种有效的技术,可用于设置缺少标记数据的环境。关键思想是在有大量标记或未标记数据可用的设置中学习常规表示,并利用学习的表示来改善数据量受限的下游任务的性能。对于需要大量工作来获取标记数据的任务(例如语音识别),这尤其有趣。

在计算机视觉中,已证明ImageNet [2]和COCO [3]的表示形式对于初始化诸如图像字幕[4]或姿态估计[5]等任务的模型很有用。对计算机视觉的无监督预训练也显示出了希望[6,7]。在自然语言处理(NLP)中,语言模型的无监督预训练[8,9,10]改善了许多任务,例如文本分类,短语结构解析和机器翻译[11,12]。在语音处理中,预训练的重点是情感识别[13],说话人识别[14],音素识别[15、16]以及将ASR表示从一种语言转移到另一种语言[17]。在语音的无监督学习方面已经开展了工作,但是结果表示尚未用于改善有监督的语音识别[18,19,20,21,22]。

在本文中,我们应用无监督的预训练来改善有监督的语音识别。这样可以利用未标记的音频数据,该数据比标记的数据更容易收集。我们的模型wav2vec是一个卷积神经网络,它将原始音频作为输入并计算可以输入到语音识别系统的一般表示。目标是对比损失,需要将真实的未来音频样本与底片区分开来[23、24、16]。与以前的工

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值