声音信号处理学习_留尘铃的博客-优快云博客

声音信号处理学习

关注

文章平均质量分 95

关注数：文章数：20 文章阅读量：85040 文章收藏量：907

作者: 留尘铃

这个作者很懒，什么都没留下…

展开

扩散模型理论与公式推导——详细过程速览与理解加深

推荐在简单了解扩散模型原理后再来看本篇文章，加深对理论的理解，本篇只叙述有关扩散模型公式理论的推导~

原创 2024-08-13 12:38:35 · 5269 阅读 · 0 评论
MB-iSTFT-VITS 模型论文思路与实验分享：基于VITS架构优化的轻量级文本转语音模型

首先我们来看看语音合成的质量如何。这里就直接放原论文中作者做的实验结果了，作者使用的是ONNX版本的：这里面 MB-iSTFT-VITS 就是咱们的主角。MOS（平均意见分数）代表了语音合成质量，Params 表示参数数量，RTF 是实时率也就代表了合成速度。这里也包括了使用可训练滤波器的 MS-iSTFT-VITS、只使用 iSTFT 而没有使用多频段生成策略的 iSTFT-VITS ，以及它们的 mini 版本（单纯砍参数）的相关结果。感兴趣的读者可以看一下原文。

原创 2024-06-15 19:35:24 · 2099 阅读 · 0 评论
TTS 文本转语音模型综合简述

通过模拟人的发声器官，进行建模，从而产生语音优点：Intelligence 很不错，但是不够自然，很像机器人声音，原因是当时是通过X相片对人的声道进行建模，因此建模不够准确。这类模型并不是很流行。Articulatory synthesis：发音合成，通过对发声器官进行建模优点：不需要数据库，就能合成能够被理解的语音。缺点：语音有点像机器人，并且非常难部署Formant synthesis：共振峰合成，基于提供的一系列规则进行建模。

原创 2024-03-28 22:17:06 · 2903 阅读 · 0 评论
VITS 模型详解与公式推导：基于条件变分自编码器和对抗学习的端到端语音合成模型

既然是从低维重构原始图像不太行，那如果将隐变量维度取输入维度一样大小呢？似乎还不够，因为标准的 VAE 将后验分布也假设为高斯分布，这限制了模型的表达能力。事实上，人们猜测，由于高斯分布簇只是众多可能的后验分布中极小的一部分，如果后验分布的性质与高斯分布差很远，那么拟合效果就会很糟糕。因此，人们想到了另一个模型：Flow。流模型通过一系列耦合层，可以将复杂的输入分布转化为高斯分布，这样的过程可逆，雅可比矩阵行列式也容易计算，那么我们就可以使用流模型，将原本过于简单的高斯分布变为更加复杂的分布，从而提高其表达

原创 2024-03-07 16:21:43 · 7296 阅读 · 4 评论
流模型 Flow 超详解，基于 Flow 的生成式模型，从思路到基础到公式推导到模型理解与应用（Flow-based Generative Model）

相信看到标题，大家应该都可以明白，Flow 本质上也是一个生成式模型（Generative Model），和 GAN、VAE、自回归模型的性质是一样的。我们简单回顾一下：自回归模型（Auto-regressive Model）诸如 WaveNet 生成出来的声音质量确实很高，但是由于它是按照某种顺序一点一点生成的，因此生成速度非常的慢，甚至需要用90分钟来生成1秒的声音，这也就导致其不太能投入实际使用。VAE 也很不错，然而我们讲过，VAE 优化的是一个变分下界（ELBO），是做了一个迂回，而并不是去

原创 2024-02-28 15:38:20 · 8036 阅读 · 4 评论
【原版】流模型 Flow 超详解，基于 Flow 的生成式模型，从思路到基础到公式推导到模型理解与应用（Flow-based Generative Model）

既然得到了 π of z 和 p of x 之间的关系，我们再回到刚刚的目标函数上，因此我们就可以对目标函数进行变换：由：以及之前推导出的核心公式，可得：进行变量替换再取 log，得：由此便得到了我们最终需要最大化的式子，也就是目标函数。可以计算 det(J_G)：我们知道了生成器 G，理论上知道了 z 怎么变成 x 就很容易计算其雅可比矩阵的行列式。

原创 2024-02-28 14:50:36 · 2623 阅读 · 0 评论
变分自编码器 VAE 超详解，从简单公式推导到模型结构到模型理解

理解了我们的核心公式和要做的事情后，我们就可以着手搭建模型了。首先我们需要做的是确定 z。VAE 是如何去描述潜在空间 z 的呢？它认为，z 根本没有一种合适的阐述方法，而是直接假定 z 的样本可以从简单的分布中抽取，即标准正态分布N(0, I)，其中 I 是单位矩阵。因为，任何 d 维度的分布都可以用一组 d 个服从正态分布的变量，通过足够复杂的函数进行映射从而生成。其中的原理可以参考[这篇论文。此外，也有采用正态分布可以更方便 KL 散度计算的说法。

原创 2024-02-23 23:56:02 · 29008 阅读 · 24 评论
RNN-T Training，RNN-T模型训练详解——语音信号处理学习（三）（选修三）

我们看下面这张表。在解码部分，LAS 和 RNN-T 会考虑前面的时序对当前时序的影响。而 CTC 并不会考虑之前的时间步已经生成出来的token。所以 LAS 和 RNN-T 在解码部分是相对比较强的。在对齐部分，CTC 和 RNN-T 都是需要考虑对齐的。而因为中间的注意力层，LAS不用显式地考虑对齐，而是采用 soft alignment，使用注意力机制来找出语音和文字之间的关系。在训练部分，LAS 只需要直接训练就行，而 CTC 和 RNN-T 则需要将所有的对齐方式概率相加，比较麻烦。

原创 2023-11-29 16:27:13 · 1706 阅读 · 3 评论
Alignment of HMM, CTC and RNN-T，对齐方式详解——语音信号处理学习（三）（选修二）

HMM，CTC 和 RNN-T 要做的对齐有相似的地方，也有不同。我们假设输入有 6 个声学特征向量（长度T=6），以 character 为 token 单位（虽然对 HMM 来说这个单位还是太大了），输出是 "c", "a", "t"（长度N=3）。对于 HMM 来说，它要做的事情就是将 cat 3个字母进行重复，让重复后的长度等于声学特征向量序列长度。对于 CTC 来说，它有两种方式，一种是对 cat 3个字母进行复制，也可以在其中插入符号，最终使得长度等于声学特征向量序列长度。

原创 2023-11-29 16:13:24 · 921 阅读 · 0 评论
HMM（Hidden Markov Model）详解——语音信号处理学习（三）（选修一）

在过去，我们可以使用统计模型来做语音识别。给定输入语音序列X，我们只需要找到最大概率的输出文字Y就可以了，也就是穷举所有可能的Y，找到一个Y*使得 P(YX) 最大化。我们也把这个过程叫作解码（decode），公式如下：穷举需要非常好的演算法，这个问题太复杂。好在我们可以使用贝叶斯定理对其进行变换，变换后的公式如下。由于 P(X) 与我们的解码任务是无关的，因为不会随着Y变化而变化。所以我们只需要保留分子部分即可。变换后，我们将式子的前半部分 P(XY) 称为，后面这项 P(Y) 称为。

原创 2023-11-29 16:03:47 · 1393 阅读 · 0 评论
Vocoder，声码器详解——语音信号处理学习（十）

WaveNet 合成出来的音质还是非常好的，但由于是自回归模型，而声音信号中，一秒就有16000个值，也就是说使用 WaveNet 产生一秒的声音就需要运算 16000 次，因此在生成时就会非常慢。而下面提到的模型其主要目的就是为了解决生成速度很慢的问题。FFTNet 采用了更简单的架构，可以以更快的速度生成和 WaveNet 几乎一样好的声音信号。作者甚至在论文里说模型可以做到使用 CPU 的实时转换（real time using CPU），也就是产生 1s 的声音信号花不到 1s。

原创 2023-11-21 11:30:53 · 3850 阅读 · 0 评论
Speaker Verification，声纹验证详解——语音信号处理学习（九）

声音模型有这么一大类，其模型主要需要完成的任务是，输入一段语音，输出某一类别。相关的模型或任务有：Emotion Recognition：情绪识别，输入语音，判断语者情绪如何。Sound Event Detection：声音事件侦测，输入语音，判断发生了什么事，可以用于安保等行业。Autism Recognition：自闭症识别，输入语音，判断是否患有自闭症。Keyword Spotting：关键词识别，输入语音，判断指定的关键词是否在语音中出现过。那么采用这类模型，和语者有关的任务有哪些呢？

原创 2023-11-21 11:08:11 · 2112 阅读 · 0 评论
Speech Synthesis，语音合成详解——语音信号处理学习（八）

Text-to-Speech，即文字到语音，也就是我们这个课程所要完成的内容：语音合成。目前的语音合成技术都是端对端训练的。课程大纲会先讲在深度学习流行之前，业界是怎么做的，再讲我们要怎样控制 TTS 来合成出我们想要的声音。Tacotron 用的是一个典型的 Seq2Seq + Attention 的模型架构。它输出还会有个后处理（Post-processing）才会产生声音频谱（spectrogram）。

原创 2023-11-17 10:19:40 · 1472 阅读 · 1 评论
Speech Separation，语音分离详解——语音信号处理学习（七）

本文主要介绍了语音分离任务中的评估指标，包括信噪比(SNR)和幅度不变信号失真比(SI-SDR/SI-SNR)等；同时讨论了样本排列问题、深度聚类、PIT以及TasNet等技术应用在语音分离任务中的优缺点和发展。此外，还探讨了未知说话人数、多麦克风、视觉信息和任务导向优化等方面的研究。

原创 2023-11-17 09:59:21 · 6107 阅读 · 0 评论
Voice Conversion，语音转换详解——语音信号处理学习（六）

VC 任务是什么：输入一段声音，输出另一段声音。输出的声音在内容上与输入一样，但音色发生了变化。就像是柯南的领结变声器。用处是什么（必要性）改变 Speaker：不同人说相同的内容效果不一样可以愚弄人可以制作 Personalized TTS（Text-to-Speech），也就是个人化的语音合成系统还可以转换歌声可以保障个人隐私（变声）改变 Speaking Style：讲话的情绪变化。

原创 2023-11-04 10:38:55 · 2343 阅读 · 0 评论
语音识别之Language Modeling，语言模型详解——语音信号处理学习（五）

本文主要介绍了语言模型（LM）在语音识别中的重要性和应用。LM能够估计token sequence的概率，包括N-gram、Continuous LM、NN-based LM和RNN-based LM等模型。此外，文章还介绍了如何将LM与语音识别模型（LAS）相结合，包括Shallow Fusion、Deep Fusion和Cold Fusion等融合方式。这些融合方式可以大大提高LAS的预测准确度，但也存在一些问题和限制。

原创 2023-11-04 10:13:03 · 1033 阅读 · 0 评论
语音识别之CTC，RNA，RNN-T，Neural Transducer，MoChA模型详解——语音信号处理学习（四）

LAS：就是 seq2seqCTC：decoder 是 linear classifier 的 seq2seqRNA：输入一个东西就要输出一个东西的 seq2seqRNN-T：输入一个东西可以输出多个东西的 seq2seqNeural Transducer：每次输入一个 window 的 RNN-TMoCha：window 移动伸缩自如的 Neural Transducer。

原创 2023-10-24 15:05:07 · 1740 阅读 · 0 评论
语音识别之Listen, Attend and Spell（LAS）模型详解——语音信号处理学习（三）

在一开始，LAS 在一些小数据集上面训练出来的结果其实并不是很好，它和常规的深度学习结果还有一定的差距。但随着训练的数据集越来越大，LAS也开始起飞了，最终在12500hour+的数据集上反超了常规深度学习的算法，并且LAS在模型大小上（0.4 GB）还远胜于传统深度学习算法（7.2 GB）

原创 2023-10-23 11:10:06 · 2003 阅读 · 0 评论
Speech Recognition，初见语音识别——语音信号处理学习（二）

一、Text Token二、模型（Speech Recognition）功能三、声音特征 Acoustic Feature四、声音数据集介绍五、常用声音模型介绍（基本上都是 seq2seq 模型）

原创 2023-10-23 10:59:49 · 652 阅读 · 0 评论
Transformer模型详解——语音信号处理学习（一）

Transformer 模型是一种深度学习架构，最初由Vaswani等人在2017年提出，用于处理自然语言处理任务，如机器翻译。它引入了自注意力机制（Self-Attention Mechanism）和并行计算的概念，从而在处理序列数据方面取得了显著的突破。Transformer 模型的创新在于它引入了一种高效的自注意力机制，允许模型在处理长序列时更好地捕获上下文关系，并且具有强大的并行计算能力。这使得它在多种自然语言处理任务中表现出色，如翻译、文本生成、命名实体识别等。

原创 2023-10-21 12:37:14 · 2585 阅读 · 1 评论

声音信号处理学习

作者: 留尘铃

扩散模型理论与公式推导——详细过程速览与理解加深

MB-iSTFT-VITS 模型论文思路与实验分享：基于VITS架构优化的轻量级文本转语音模型

TTS 文本转语音模型综合简述

VITS 模型详解与公式推导：基于条件变分自编码器和对抗学习的端到端语音合成模型

流模型 Flow 超详解，基于 Flow 的生成式模型，从思路到基础到公式推导到模型理解与应用（Flow-based Generative Model）

【原版】流模型 Flow 超详解，基于 Flow 的生成式模型，从思路到基础到公式推导到模型理解与应用（Flow-based Generative Model）

变分自编码器 VAE 超详解，从简单公式推导到模型结构到模型理解

RNN-T Training，RNN-T模型训练详解——语音信号处理学习（三）（选修三）

Alignment of HMM, CTC and RNN-T，对齐方式详解——语音信号处理学习（三）（选修二）

HMM（Hidden Markov Model）详解——语音信号处理学习（三）（选修一）

Vocoder，声码器详解——语音信号处理学习（十）

Speaker Verification，声纹验证详解——语音信号处理学习（九）

Speech Synthesis，语音合成详解——语音信号处理学习（八）

Speech Separation，语音分离详解——语音信号处理学习（七）

Voice Conversion，语音转换详解——语音信号处理学习（六）

语音识别之Language Modeling，语言模型详解——语音信号处理学习（五）

语音识别之CTC，RNA，RNN-T，Neural Transducer，MoChA模型详解——语音信号处理学习（四）

语音识别之Listen, Attend and Spell（LAS）模型详解——语音信号处理学习（三）

Speech Recognition，初见语音识别——语音信号处理学习（二）

Transformer模型详解——语音信号处理学习（一）