语音识别VQ-WAV2VEC+BERT

本文介绍了Facebook AI的VQ-WAV2VEC,一种在WAV2VEC基础上的自监督离散语音表示学习方法。它通过Gumbel-Softmax或K-means聚类将连续信号转化为离散特征,便于像BERT处理文本一样处理。实验表明,VQ-WAV2VEC结合BERT在声学模型性能上优于原始WAV2VEC。

1 简介

本文根据2019年《VQ-WAV2VEC: SELF-SUPERVISED LEARNING OF DISCRETE SPEECH REPRESENTATIONS》翻译总结的。是Facebook AI 继WAV2VEC之后的创作,是WAV2VEC基础上的发展。

WAV2VEC详见https://blog.youkuaiyun.com/zephyr_wang/article/details/127821501

如文章题目所述,是对离散语音变量的学习,文章引入了两种量化方法,gumbel softmax或者k-means clustering来进行离散化,类似VQ-VAE。离散化后就可以类似NLP那样处理了,如BERT处理的也是文本这种离散化的数据。

如下图所示,VQ-WAV2VEC离散化后输入BERT模型,然后再输入声学模型AM。实验发现VQ-WAV2VEC+BERT比WAV2VEC或者log-mel filterbank输入声学模型的效果好。

在这里插入图片描述

2 VQ-WAV2VEC

在这里插入图片描述
在这里插入图片描述

量化模型有两种方法,gumbel softmax或者k-means clustering。
在这里插入图片描述

2.1 gumbel softmax

主要是看上图a,对z应用一个线性层,接着一个ReLU,然后一个线性输出logit,然后进行gumbel softmax。具体公式如下:
在这里插入图片描述

2.2 k-means

如上图b,主要是比较z与e的距离, 在这里插入图片描述

损失函数在WAV2VEC上增加了两项,
在这里插入图片描述

3 实验结果

如下表,vq-wav2vec with BERT好于wav2vec。

在这里插入图片描述

下表说明gumbel softmax 和 k-means方法效果差不多。

在这里插入图片描述

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值