
声音信号处理学习
文章平均质量分 95
留尘铃
这个作者很懒,什么都没留下…
展开
-
扩散模型理论与公式推导——详细过程速览与理解加深
推荐在简单了解扩散模型原理后再来看本篇文章,加深对理论的理解,本篇只叙述有关扩散模型公式理论的推导~原创 2024-08-13 12:38:35 · 5269 阅读 · 0 评论 -
MB-iSTFT-VITS 模型论文思路与实验分享:基于VITS架构优化的轻量级文本转语音模型
首先我们来看看语音合成的质量如何。这里就直接放原论文中作者做的实验结果了,作者使用的是ONNX版本的:这里面 MB-iSTFT-VITS 就是咱们的主角。MOS(平均意见分数)代表了语音合成质量,Params 表示参数数量,RTF 是实时率也就代表了合成速度。这里也包括了使用可训练滤波器的 MS-iSTFT-VITS、只使用 iSTFT 而没有使用多频段生成策略的 iSTFT-VITS ,以及它们的 mini 版本(单纯砍参数)的相关结果。感兴趣的读者可以看一下原文。原创 2024-06-15 19:35:24 · 2099 阅读 · 0 评论 -
TTS 文本转语音模型综合简述
通过模拟人的发声器官,进行建模,从而产生语音优点:Intelligence 很不错,但是不够自然,很像机器人声音,原因是当时是通过X相片对人的声道进行建模,因此建模不够准确。这类模型并不是很流行。Articulatory synthesis:发音合成,通过对发声器官进行建模优点:不需要数据库,就能合成能够被理解的语音。缺点:语音有点像机器人,并且非常难部署Formant synthesis:共振峰合成,基于提供的一系列规则进行建模。原创 2024-03-28 22:17:06 · 2903 阅读 · 0 评论 -
VITS 模型详解与公式推导:基于条件变分自编码器和对抗学习的端到端语音合成模型
既然是从低维重构原始图像不太行,那如果将隐变量维度取输入维度一样大小呢?似乎还不够,因为标准的 VAE 将后验分布也假设为高斯分布,这限制了模型的表达能力。事实上,人们猜测,由于高斯分布簇只是众多可能的后验分布中极小的一部分,如果后验分布的性质与高斯分布差很远,那么拟合效果就会很糟糕。因此,人们想到了另一个模型:Flow。流模型通过一系列耦合层,可以将复杂的输入分布转化为高斯分布,这样的过程可逆,雅可比矩阵行列式也容易计算,那么我们就可以使用流模型,将原本过于简单的高斯分布变为更加复杂的分布,从而提高其表达原创 2024-03-07 16:21:43 · 7296 阅读 · 4 评论 -
流模型 Flow 超详解,基于 Flow 的生成式模型,从思路到基础到公式推导到模型理解与应用(Flow-based Generative Model)
相信看到标题,大家应该都可以明白,Flow 本质上也是一个生成式模型(Generative Model),和 GAN、VAE、自回归模型的性质是一样的。我们简单回顾一下:自回归模型(Auto-regressive Model)诸如 WaveNet 生成出来的声音质量确实很高,但是由于它是按照某种顺序一点一点生成的,因此生成速度非常的慢,甚至需要用90分钟来生成1秒的声音,这也就导致其不太能投入实际使用。VAE 也很不错,然而我们讲过,VAE 优化的是一个变分下界(ELBO),是做了一个迂回,而并不是去原创 2024-02-28 15:38:20 · 8036 阅读 · 4 评论 -
【原版】流模型 Flow 超详解,基于 Flow 的生成式模型,从思路到基础到公式推导到模型理解与应用(Flow-based Generative Model)
既然得到了 π of z 和 p of x 之间的关系,我们再回到刚刚的目标函数上,因此我们就可以对目标函数进行变换:由:以及之前推导出的核心公式,可得:进行变量替换再取 log,得:由此便得到了我们最终需要最大化的式子,也就是目标函数。可以计算 det(J_G):我们知道了生成器 G,理论上知道了 z 怎么变成 x 就很容易计算其雅可比矩阵的行列式。原创 2024-02-28 14:50:36 · 2623 阅读 · 0 评论 -
变分自编码器 VAE 超详解,从简单公式推导到模型结构到模型理解
理解了我们的核心公式和要做的事情后,我们就可以着手搭建模型了。首先我们需要做的是确定 z。VAE 是如何去描述潜在空间 z 的呢?它认为,z 根本没有一种合适的阐述方法,而是直接假定 z 的样本可以从简单的分布中抽取,即标准正态分布N(0, I),其中 I 是单位矩阵。因为,任何 d 维度的分布都可以用一组 d 个服从正态分布的变量,通过足够复杂的函数进行映射从而生成。其中的原理可以参考[这篇论文。此外,也有采用正态分布可以更方便 KL 散度计算的说法。原创 2024-02-23 23:56:02 · 29008 阅读 · 24 评论 -
RNN-T Training,RNN-T模型训练详解——语音信号处理学习(三)(选修三)
我们看下面这张表。在解码部分,LAS 和 RNN-T 会考虑前面的时序对当前时序的影响。而 CTC 并不会考虑之前的时间步已经生成出来的token。所以 LAS 和 RNN-T 在解码部分是相对比较强的。在对齐部分,CTC 和 RNN-T 都是需要考虑对齐的。而因为中间的注意力层,LAS不用显式地考虑对齐,而是采用 soft alignment,使用注意力机制来找出语音和文字之间的关系。在训练部分,LAS 只需要直接训练就行,而 CTC 和 RNN-T 则需要将所有的对齐方式概率相加,比较麻烦。原创 2023-11-29 16:27:13 · 1706 阅读 · 3 评论 -
Alignment of HMM, CTC and RNN-T,对齐方式详解——语音信号处理学习(三)(选修二)
HMM,CTC 和 RNN-T 要做的对齐有相似的地方,也有不同。我们假设输入有 6 个声学特征向量(长度T=6),以 character 为 token 单位(虽然对 HMM 来说这个单位还是太大了),输出是 "c", "a", "t"(长度N=3)。对于 HMM 来说,它要做的事情就是将 cat 3个字母进行重复,让重复后的长度等于声学特征向量序列长度。对于 CTC 来说,它有两种方式,一种是对 cat 3个字母进行复制,也可以在其中插入 符号,最终使得长度等于声学特征向量序列长度。原创 2023-11-29 16:13:24 · 921 阅读 · 0 评论 -
HMM(Hidden Markov Model)详解——语音信号处理学习(三)(选修一)
在过去,我们可以使用统计模型来做语音识别。给定输入语音序列X,我们只需要找到最大概率的输出文字Y就可以了,也就是穷举所有可能的Y,找到一个Y*使得 P(YX) 最大化。我们也把这个过程叫作解码(decode),公式如下:穷举需要非常好的演算法,这个问题太复杂。好在我们可以使用贝叶斯定理对其进行变换,变换后的公式如下。由于 P(X) 与我们的解码任务是无关的,因为不会随着Y变化而变化。所以我们只需要保留分子部分即可。变换后,我们将式子的前半部分 P(XY) 称为,后面这项 P(Y) 称为。原创 2023-11-29 16:03:47 · 1393 阅读 · 0 评论 -
Vocoder,声码器详解——语音信号处理学习(十)
WaveNet 合成出来的音质还是非常好的,但由于是自回归模型,而声音信号中,一秒就有16000个值,也就是说使用 WaveNet 产生一秒的声音就需要运算 16000 次,因此在生成时就会非常慢。而下面提到的模型其主要目的就是为了解决生成速度很慢的问题。FFTNet 采用了更简单的架构,可以以更快的速度生成和 WaveNet 几乎一样好的声音信号。作者甚至在论文里说模型可以做到使用 CPU 的实时转换(real time using CPU),也就是产生 1s 的声音信号花不到 1s。原创 2023-11-21 11:30:53 · 3850 阅读 · 0 评论 -
Speaker Verification,声纹验证详解——语音信号处理学习(九)
声音模型有这么一大类,其模型主要需要完成的任务是,输入一段语音,输出某一类别。相关的模型或任务有:Emotion Recognition:情绪识别,输入语音,判断语者情绪如何。Sound Event Detection:声音事件侦测,输入语音,判断发生了什么事,可以用于安保等行业。Autism Recognition:自闭症识别,输入语音,判断是否患有自闭症。Keyword Spotting:关键词识别,输入语音,判断指定的关键词是否在语音中出现过。那么采用这类模型,和语者有关的任务有哪些呢?原创 2023-11-21 11:08:11 · 2112 阅读 · 0 评论 -
Speech Synthesis,语音合成详解——语音信号处理学习(八)
Text-to-Speech,即文字到语音,也就是我们这个课程所要完成的内容:语音合成。目前的语音合成技术都是端对端训练的。课程大纲会先讲在深度学习流行之前,业界是怎么做的,再讲我们要怎样控制 TTS 来合成出我们想要的声音。Tacotron 用的是一个典型的 Seq2Seq + Attention 的模型架构。它输出还会有个后处理(Post-processing)才会产生声音频谱(spectrogram)。原创 2023-11-17 10:19:40 · 1472 阅读 · 1 评论 -
Speech Separation,语音分离详解——语音信号处理学习(七)
本文主要介绍了语音分离任务中的评估指标,包括信噪比(SNR)和幅度不变信号失真比(SI-SDR/SI-SNR)等;同时讨论了样本排列问题、深度聚类、PIT以及TasNet等技术应用在语音分离任务中的优缺点和发展。此外,还探讨了未知说话人数、多麦克风、视觉信息和任务导向优化等方面的研究。原创 2023-11-17 09:59:21 · 6107 阅读 · 0 评论 -
Voice Conversion,语音转换详解——语音信号处理学习(六)
VC 任务是什么:输入一段声音,输出另一段声音。输出的声音在内容上与输入一样,但音色发生了变化。就像是柯南的领结变声器。用处是什么(必要性)改变 Speaker:不同人说相同的内容效果不一样可以愚弄人可以制作 Personalized TTS(Text-to-Speech),也就是个人化的语音合成系统还可以转换歌声可以保障个人隐私(变声)改变 Speaking Style:讲话的情绪变化。原创 2023-11-04 10:38:55 · 2343 阅读 · 0 评论 -
语音识别之Language Modeling,语言模型详解——语音信号处理学习(五)
本文主要介绍了语言模型(LM)在语音识别中的重要性和应用。LM能够估计token sequence的概率,包括N-gram、Continuous LM、NN-based LM和RNN-based LM等模型。此外,文章还介绍了如何将LM与语音识别模型(LAS)相结合,包括Shallow Fusion、Deep Fusion和Cold Fusion等融合方式。这些融合方式可以大大提高LAS的预测准确度,但也存在一些问题和限制。原创 2023-11-04 10:13:03 · 1033 阅读 · 0 评论 -
语音识别之CTC,RNA,RNN-T,Neural Transducer,MoChA模型详解——语音信号处理学习(四)
LAS:就是 seq2seqCTC:decoder 是 linear classifier 的 seq2seqRNA:输入一个东西就要输出一个东西的 seq2seqRNN-T:输入一个东西可以输出多个东西的 seq2seqNeural Transducer:每次输入一个 window 的 RNN-TMoCha:window 移动伸缩自如的 Neural Transducer。原创 2023-10-24 15:05:07 · 1740 阅读 · 0 评论 -
语音识别之Listen, Attend and Spell(LAS)模型详解——语音信号处理学习(三)
在一开始,LAS 在一些小数据集上面训练出来的结果其实并不是很好,它和常规的深度学习结果还有一定的差距。但随着训练的数据集越来越大,LAS也开始起飞了,最终在12500hour+的数据集上反超了常规深度学习的算法,并且LAS在模型大小上(0.4 GB)还远胜于传统深度学习算法(7.2 GB)原创 2023-10-23 11:10:06 · 2003 阅读 · 0 评论 -
Speech Recognition,初见语音识别——语音信号处理学习(二)
一、Text Token二、模型(Speech Recognition)功能三、声音特征 Acoustic Feature四、声音数据集介绍五、常用声音模型介绍(基本上都是 seq2seq 模型)原创 2023-10-23 10:59:49 · 652 阅读 · 0 评论 -
Transformer模型详解——语音信号处理学习(一)
Transformer 模型是一种深度学习架构,最初由Vaswani等人在2017年提出,用于处理自然语言处理任务,如机器翻译。它引入了自注意力机制(Self-Attention Mechanism)和并行计算的概念,从而在处理序列数据方面取得了显著的突破。Transformer 模型的创新在于它引入了一种高效的自注意力机制,允许模型在处理长序列时更好地捕获上下文关系,并且具有强大的并行计算能力。这使得它在多种自然语言处理任务中表现出色,如翻译、文本生成、命名实体识别等。原创 2023-10-21 12:37:14 · 2585 阅读 · 1 评论