朋友们,openai去年9月出了重磅产品whisper,这个是ASR领域,尤其是开源领域的重磅,里面设计的技术将通过论文去讲解,下面从头带大家去学习。

摘要:
在68万小时的多语言和多任务监督中,所得到的模型很好地泛化到标准基准,并且通常与之前的完全监督结果相抗衡,且zero-shot中不需要任何微调 。与人类相比,模型的准确性和稳健性都有所提高。我们正在发布模型和推理代码,作为进一步研究鲁棒语音处理的基础。
介绍:
2020年的wav2vec为语音处理起到了非常大的推动作用,因为他可以从无需人类标记的原始语音中直接的学习,并且很有成效的把无标签数据扩张到了1百万小时,远超1000小时的有监督数据。当对标准基准进行微调时,这种方法已经改进了当前的技术水平,特别是在低数据设置中。
这些预先训练过的音频编码器学习高质量的语音表示,由于它们完全不受监督,它们缺乏等效性能的解码器,将这些表示映射到可用的输出,需要一个微调阶段才能实际执行语音识别。微调依旧很复杂,需要专业的技术人员去做,这也限制了他的应用。
一个在一个数据集上训练时达到“超人”性能的模型,在另一个数据集上评估时仍然会犯许多基本错误,这可能正是因为它利用了那些人类忽略的数据集特定的怪癖。
这表明,虽然无监督的预训练极大地提高了音频编码器的质量,但缺乏同等高质量的预训练解码器,是限制其有用性和鲁棒性的关键弱点。有监督数据有5,140个小时,这对比1百万的无监督数据而言,还是不够。为了解决这个问题,只能适当放宽数据要求,把严格监督改为弱监督数据,这样就可以把1w小时的数据扩展到3w,质与量之间的权衡通常是正确的选择。
尽管到目前为止在语音识别方面还没有得到充分的研究,但最近在计算机视觉方面的工作已经表明,将金标准的众包数据集(如ImageNet (Russakovsky et al., 2015))移动到更大但监督较弱的数据集,可以显著提高模型的抗噪性和泛化性
然而,这些新的数据集只比现有高质量数据集的总和大几倍,仍然比以前的无人监督的工作小得多。在这项工作中,我们缩小了这一差距,将弱监督语音识别的数量级扩大到68万小时的标记音频数据,我们称我们的方法为Whisper。并且,我们还扩展了语音数据的语言范围,这反而有助于多任务和多语言的模型具备更好的泛化。
Whisper是OpenAI在2021年发布的多语言、多任务语音识别模型,它在68万小时的监督数据上训练,实现了与全监督结果相当的性能,且在零样本情况下无需微调。模型的准确性和稳健性超越了人类,在降低对有监督数据的依赖性方面取得突破,通过弱监督学习扩展了数据规模,提高了模型的泛化和抗噪能力。
9535

被折叠的 条评论
为什么被折叠?



