语音识别预训练模型Hidden-Unit BERT (HuBERT)

本文介绍HuBERT自监督学习模型,针对语音学习中的多声音单元、无词典及长度可变等问题,通过mask预测损失的方式,实现了对声学和语言的组合建模。其效果超越了wav2vec2.0。

1.简介

本文根据2021年《HuBERT: Self-Supervised Speech Representation Learning by Masked Prediction of Hidden Units》翻译总结的。

自监督语音学习面临3个挑战,1)在每句话中有多个声音单元;2)在预训练阶段没有输入声音单元对应的词典;3)声音单元长度可变,没有明确的分割。为了出来这些问题,我们提出了Hidden-Unit BERT (HuBERT) 。

HuBERT的一个主要成分是只在mask的区域应用预测loss(如下图的3个mask),这会迫使模型基于连续的输入去学习声学和语言的组合模型。即采用了一个更加直接的预测loss将声学单元(如MFCC)与mask预测部分区分开

HuBERT效果超过了wav2vec 2.0。

在这里插入图片描述

2.方法

2.1.Hidden units

在这里插入图片描述

2.2.Mask预测

在这里插入图片描述

2.3.k-means模型聚合

在这里插入图片描述

2.4.迭代精炼

我期望一个预训练模型提供更好的表示,而不是原始的声学特征,如MFCC。所以基于隐变量训练一个离散隐模型来重新表示。

如BASE模型,第一个迭代是训练了250k步,第二个迭代是基于第一个迭代模型的第6个transformer层的输出而生成的label继续训练400k步。

2.5.实施

类似采用wav2vec 2.0架构,一个卷积wafeform encoder,一个BERTencoder,一个projection layer 和a code embedding layer。如下所示:
在这里插入图片描述

基于模型,具体p的公式如下:

在这里插入图片描述

在HuBERT预训练完后,我们使用e connectionist temporal classifification (CTC) loss 来进行ASR 微调(fine-tuning),其中卷积encoder 冻住,不参与微调。projection layer被移除,用一个随机初始化的softmax 层代替。CTC 目标词汇包括26个英语字母、a space token, an apostrophe, and a special CTC blank symbol。

2.6 Supervised Fine-Tuning and Decoding

我们使用 wav2letter++ beam search decoder wrapped
in Fairseq for language model-fused decoding。
在这里插入图片描述

3.结果

如下表所示,HUBERT好于wav2vec 2.0。

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值