语音预训练模型wav2vec

原创

已于 2024-11-26 00:33:39 修改 · 799 阅读

10 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能

于 2024-11-26 00:32:27 首次发布

✨✨ 欢迎大家来访Srlua的博文（づ￣3￣）づ╭❤～✨✨

🌟🌟 欢迎各位亲爱的读者，感谢你们抽出宝贵的时间来阅读我的文章。

我是Srlua小谢，在这里我会分享我的知识和经验。🎥

希望在这里，我们能一起探索IT世界的奥妙，提升我们的技能。🔮

记得先点赞👍后阅读哦~ 👏👏

📘📚 所属专栏：传知代码论文复现

欢迎访问我的主页：Srlua小谢获取更多信息和资源。✨✨🌙🌙

概述

论文：wav2vec: Unsupervised Pre-training for Speech Recognition

Wav2Vec（Waveform-to-Vector）是一种在语音处理领域中具有重要意义的技术。它的由来可以追溯到Facebook AI Research（FAIR）在2019年提出的一篇论文，旨在解决语音识别中的数据标记问题。传统的语音识别系统通常需要大量标记好的语音数据进行训练，但这一过程非常耗时且昂贵。Wav2Vec的目标是通过自监督学习的方法，从未标记的语音数据中学习有用的语音表示，从而减少对标记数据的依赖。

Wav2Vec在语音处理领域具有重要的应用前景。语音是一种丰富的信息形式，但传统的语音处理技术往往受限于标记数据的稀缺性和高成本，限制了语音处理技术的发展。Wav2Vec的出现为解决这个问题提供了一种新的思路，它使我们能够更有效地使用未标记的语音数据，提高语音处理任务的性能和可扩展性。因此，Wav2Vec在语音识别、语音合成、语音情感分析等领域有广泛的应用前景。

基本原理

文章提出一种无监督的语音预训练模型 wav2vec，可迁移到语音下游任务。模型预训练一个简单的多层卷积神经网络，并提出了一种噪声对比学习二分类任务(noise contrastive binary classification task)，从而使得wav2vec可以在大量未标注的数据上进行训练。实验结果表明wav2vec预训练得到的speech representation超越了帧级别的音素分类任务并且可以显著提升ASR模型的表现，同时，完全卷积架构与使用的递归模型相比，可以在硬件上并行计算。

模型结构如下图，首先将原始音频x编码为潜在空间z的 encoder network（5层卷积），再将潜在空间z转换为contextualized representation（9层卷积），最终特征维度为512x帧数。目标是在特征层面使用当前帧预测未来帧。