语音识别预训练模型Hidden-Unit BERT (HuBERT)

翻译已于 2022-11-26 11:17:46 修改 · 9.1k 阅读

文章标签：

#语音识别 #bert #深度学习

于 2022-11-18 15:44:53 首次发布

人工智能同时被 3 个专栏收录

151 篇文章

订阅专栏

transformer

33 篇文章

订阅专栏

语音识别

15 篇文章

订阅专栏

本文介绍HuBERT自监督学习模型，针对语音学习中的多声音单元、无词典及长度可变等问题，通过mask预测损失的方式，实现了对声学和语言的组合建模。其效果超越了wav2vec2.0。

1.简介

本文根据2021年《HuBERT: Self-Supervised Speech Representation Learning by Masked Prediction of Hidden Units》翻译总结的。

自监督语音学习面临3个挑战，1）在每句话中有多个声音单元；2）在预训练阶段没有输入声音单元对应的词典；3）声音单元长度可变，没有明确的分割。为了出来这些问题，我们提出了Hidden-Unit BERT (HuBERT) 。

HuBERT的一个主要成分是只在mask的区域应用预测loss（如下图的3个mask），这会迫使模型基于连续的输入去学习声学和语言的组合模型。即采用了一个更加直接的预测loss将声学单元（如MFCC）与mask预测部分区分开。

HuBERT效果超过了wav2vec 2.0。

在这里插入图片描述

2.方法

2.1.Hidden units

在这里插入图片描述

2.2.Mask预测

在这里插入图片描述

2.3.k-means模型聚合

在这里插入图片描述

2.4.迭代精炼

我期望一个预训练模型提供更好的表示，而不是原始的声学特征，如MFCC。所以基于隐变量训练一个离散隐模型来重新表示。

如BASE模型，第一个迭代是训练了250k步，第二个迭代是基于第一个迭代模型的第6个transformer层的输出而生成的label继续训练400k步。

2.5.实施

类似采用wav2vec 2.0架构，一个卷积wafeform encoder，一个BERTencoder，一个projection layer 和a code embedding layer。如下所示：
在这里插入图片描述

基于模型，具体p的公式如下：

在这里插入图片描述

在HuBERT预训练完后，我们使用e connectionist temporal classifification (CTC) loss 来进行ASR 微调（fine-tuning），其中卷积encoder 冻住，不参与微调。projection layer被移除，用一个随机初始化的softmax 层代替。CTC 目标词汇包括26个英语字母、a space token, an apostrophe, and a special CTC blank symbol。