Audio-预训练模型(一):概述

本文概述了自监督学习在语音预训练模型的发展,从Deepmind的CPC到FAIR的wav2vec系列,再到谷歌的Conformer和微软的UniSpeech等模型。文章介绍了基于生成和判别学习的两种自监督方法,讨论了它们的优缺点,并提及了这些模型在语音识别、说话人识别等任务中的最新成果。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

基于判别学习的语音预训练模型的发展历程大致从DeepmindCPC开始,FAIRwav2vec系列工作(Wav2vec, Vq-wav2vec, Discret BERT, Wav2vec 2.0,Wav2vec-U)专注于语音识别任务,一步步将预训练模型从特征提取器发展到带有离散化模块的端到端的自监督训练模型,一步步地挑战更为困难的语音识别数据集,使用更少的有标注数据或者完全使用无标注的数据,取得更好的结果。近期FAIR又提出HuBERT模型直接使用MLM的方式预测事先聚类好的离散的target。以及近近近期Meta AIdata2vec模型直接使用掩码加在线蒸馏的方法不仅在语音ASR达到SOTA,还在图像和NLP领域也有强劲的实力。(从CPC到data2vec都是旨在提出一个语音/vision/NLP都可以使用的一个自监督学习方法,从RNN时代到Transformer时代,仿佛历经一场轮回,但其实发表时间只是时隔3年而已…)

再看谷歌这边使用自家的Conformer框架一次次的基于Wav2vec2.0自监督训练方法针对于语音识别任务"pushing the limits",把预训练模型做的更大更强,用1百万

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值