BarbaraChow-优快云博客

存在问题：目前的语音增强技术都是在频谱域上操作和/或利用一些更高层次的特征。它们中的大多数只能处理有限数量的噪声条件，并依赖于一阶统计量。为了规避这些问题，人们越来越多地使用深度网络，由于它们具有从大量数据中学习复杂函数的能力。本研究中，我们提出使用生成对抗网络进行语音增强。本文方法：与目前的技术相比，我们是在波形级别操作，端到端训练模型，并将28个说话人和40种不同的噪声条件纳入同一模型，以便在它们之间共享模型参数。

2024-11-28 21:09:20 1272

转载训练集、测试集、交叉验证、泛化误差等

准确率（Accuracy）；召回率（Recall）；精确度（Precision）；错误率（error rate）；精度（accuracy）；经验误差（empirical error）；泛化误差（generalization error）；过拟合（overfitting）;留出法（hold-out）;交叉验证法（cross validation）;自助法（bootstrapping）;

2024-11-02 11:33:26 257

原创语音转换之CycleGAN-VC3：原理与实战

非平行语音转换(VC)是一种不使用平行语料库学习源语和目标语之间映射的技术。最近，循环一致对抗网络(CycleGAN)-VC和CycleGAN-vc2在这一问题上取得了令人满意的结果，并被广泛用作基准方法。然而，CycleGAN-VC/VC2对mel-谱图转换的有效性还不明确，它们通常用于梅尔倒谱转换，即使比较方法采用梅尔谱图作为转换目标。为了解决这个问题，我们研究了CycleGAN-VC/VC2在mel-谱图转换中的适用性。

2024-10-22 17:44:57 1046

原创语音转换之CycleGan-VC代码实战

之前的博客讲解了CycleGAN-VC模型的原理，那具体代码怎么实现呢？今天学习第一代的CycleGAN-VC。基于Tensorflow深度学习框架。

2024-09-25 11:55:10 874

转载单因素方差分析

单因素方差分析（one way ANOVA，也称F检验），是用来研究一个控制变量的不同水平是否对观测变量产生了显著影响。

2024-08-21 17:17:14 1759

原创大型语言模型入门

能做“文字接龙”的模型，其实就是语言模型。

2024-08-01 21:56:11 1026

原创通俗易懂生成式人工智能（Generative AI）

生成式人工智能就是让机器产生复杂的、有结构的物件，如：文本、语音、图像等。而这些物件的在计算机中的表现就是数字，如文本就是一堆文字，文字编码成数字；语音就是一堆采样点；图像就是一堆像素点，这些都是数字。

2024-07-30 17:44:38 937

原创语流音变、连续变调、协同发音、音位变体、语流轻声

从语音学、语言学、音系学等角度分析普通话的声调时，我们常常会遇到语流音变、连续变调、协同发音、音位变体等名字，这些专业名词的含义都有什么区别与联系呢？了解这些术语有助于深入理解汉语普通话的语音系统，对于学习者掌握正确的发音和语音学研究都非常重要。（本文会继续补充更新。

2024-06-27 21:18:46 2798

原创语音质量评价方法之MOS

在语音增强、语音合成、语音转换、声音转换、语音克隆、语音修复等等领域，常常要对输出的语音进行评价。对语音的质量评价一般关注两个方面，即主观评价和客观评价。主观评价就是人凭借听觉感受对语音进行打分，客观评价比较广泛，有的是通过计算输出语音与目标语音之间的声学参数之间的差异来衡量输出语音的质量；有的是依靠仪器测试响度、频率响应、灵敏度等指标；有的依靠模型和算法，模拟人工打分。注：这些评价方法并不都是相互独立的，如：F0 MSE、F0RMSE是计算最小均方误差和最小均方根误差。有一定的相似性。

2024-06-17 16:27:21 6843

转载两个不同频率纯音合成

当两个或多个不同频率的声音波叠加

2024-04-18 10:44:58 606

原创音频变速python版

语音变速

2024-04-14 22:05:03 3163

转载音频削波(Audio Clipping)

音频削波，是指在模拟或数字系统中，音频信号被放大到超出最大限制。通常也被称为“过载（Overdrive）”，就像同名的吉他单块一样，这对音质的影响极大，最终出现失真问题，同时，人耳对于这种现象十分敏感。下图展示了发生削波时的情况：比如：采样频率44.1KHz，精度16bit，双声道。用sony麦克风输入电平，衰减电平保持不变的情况下，将麦克风的采集音量分别调至55和100。RtAudio PCM 音量55RtAudio PCM 音量100。

2024-04-13 11:49:46 1610

转载傅里叶变换到小波变换

傅立叶变换是最入门的，也是最先了解的，通过傅立叶变换，了解缺点，改进，慢慢的就成了小波变换。从傅立叶变换、短时傅立叶变换，小波变换等等，还有EMD变换。当然，其中会看到很多的名词，例如，内积，基，归一化正交，投影，Hilbert空间，多分辨率，父小波，母小波，这些不同的名词也是学习小波路上的标志牌。

2024-03-29 17:48:22 478

原创音频读取之wave和liborsa

wave库基本操作

2024-03-11 22:53:41 1003

原创声强和能量及其praat操作

声强和能量及其praat操作

2024-03-07 20:15:26 2360

原创 Numpy中常用函数np.clip和np.finfo

Numpy中常用函数np.clip和np.finfo

2024-03-07 11:58:26 796

翻译数据操作之 Normalize / Standardize / Rescale

为什么用、怎么用、什么时候用 Should You Normalize / Standardize / Rescale Your Data?

2024-03-06 21:56:16 1247

原创生成模型之扩散模型DDPM

Diffusion model

2023-12-20 19:39:09 4721 1

原创基频估计之DIO算法

DIO算法提取F0

2023-11-27 22:01:41 1593

原创音质和音色一样吗？

音质和音色

2023-11-10 18:05:03 1696

原创实验语音学的基本概念

实验语音学

2023-11-09 11:30:33 1318

转载相似度度量（Similarity Measurement）方法总结

相似性度量方法

2023-09-21 10:44:11 8548 1

转载最小相位、全通滤波器、群延迟、相位延迟

最小相位系统

2023-09-07 15:33:56 3919

原创谱包络之pysptk和pyworld库

一个是mel广义谱表示，转换成MLSA声码器能够合成的语音参数，就能直接合成语音；一个是对语音频谱包络进行编码，需要再解码成普参数再合成语音。

2023-08-11 21:49:00 683

原创语音基石模型Speech Foundation Models

语音自监督学习模型。

2023-07-23 17:24:21 3170

转载内积inner product、外积outer product、哈达玛积element-wise product

内积inner product、外积outer product、哈达玛积element-wise product

2023-07-12 11:22:56 3486

原创通俗易懂生成对抗网络GAN原理（二）

GAN背后的理论

2023-07-05 17:30:44 1071

转载浅析声音的数字化过程

音频数字化就是将模拟的(连续的)声音波形数字化(离散化)，以便利用数字计算机进行处理的过程，主要包参数括采样频率（Sample Rate）和采样数位/采样精度（Quantizing，也称量化级）两个方面，这二者决定了数字化音频的质量。采样频率是对声音波形每秒钟进采样的次数。根据这种采样方法，采样频率是能够再现声音频率的一倍。人耳听觉的频率上限在20kHz左右，为了保证声音不失真，采样频率应在40kHz左右。经常使用的采样频率有11.025kHz、22.05kHz和44.1kHz等。

2023-07-05 11:37:35 5263 1

原创语言的韵律(Prosody)

从感知层面，语言韵律就是音调和节奏的变化所产生的感知模式。

2023-06-28 11:47:20 2253

原创小波变换之pycwt (python)

PyCWT是用于连续小波谱分析的Python模块，它包括小波变换和FFT算法统计分析的常规操作的集合。此外，该模块还包括交叉小波变换、小波相干性测试和样例脚本。该模块需要NumPy和SciPy，matplotlib模块。

2023-06-16 12:15:33 5613 1

原创 HARVEST基音检测算法

Harvest的独特之处在于可以获得可靠的F0轮廓，减少了将浊音部分错误地识别为清音部分的错误。在第一步中，算法使用多个不同中心频率的带通滤波器提取基本分量，从滤波信号中得到基本F0候选值;然后利用瞬时频率对基本F0候选对象进行细化和评分，然后估计出每帧中的几个F0候选对象。由于基于基本成分提取的逐帧处理对时间局部噪声的鲁棒性较差，在第二步中使用了使用相邻f0的连接算法。这种连接利用了F0等高线在短时间内不会急剧变化的事实。

2023-06-06 21:02:00 963 2

转载离散余弦变换DCT

通过研究发现，DCT除了具有一般的正交变换性质外，其变换阵的基向量很近似于Toeplitz矩阵的特征向量，后者体现了人类的语言、图像信号的相关特性。因此，在对语音、图像信号变换的确定的变换矩阵正交变换中，DCT变换被认为是一种准最佳变换。在近年颁布的一系列视频压缩编码的国际标准建议中，都把 DCT 作为其中的一个基本处理模块。

2023-05-24 21:25:13 8944

转载矢量量化（Vector Quantization）

矢量量化技术

2023-05-24 16:32:51 1988

原创 MATLAB之采样函数resamlpe、decimate、downsample

resample函数主要通过有理因子改变采样率，可以实现抽取和内插。比如：y = resample(x,p,q)x是样本信号，p，q都是正整数，p为新的采样频率，q为原来的采样频率；例如：y=resample(x,100,200)这代表x信号原先的采样频率为200Hz，使用resample函数后采样率变为100Hz，则x信号的数据长度会变为原来的一半。反之，就是使x的采样频率升高了。x–时间序列p、q–正整数，指定重采样的长度的倍数。

2023-05-16 15:22:17 10193

原创 Matlab之round、fir1、fftfilt

该格式是利用基于FFT的重叠相加法对数据进行滤波，这种频域滤波技术只对FIR滤波器有效。该函数是通过向量b描述的滤波器对x数据进行滤波。语法形式只有1种：Y = round(X)，这里的X可以是数，向量，矩阵，输出对应。设计一个48阶FIR带通滤波器，通带为0.35π≤ω≤0.65π rad/ sample。数字角频率w、模拟角频率Ω之间的关系为 w=Ω/Fs,所以 w = 2。b是FIR滤波器的H(z）的分子多项式系数。Wn — 截止频率， 0≤Wn≤1，Wn=1 对应于采样频率的一半。

2023-05-16 14:40:04 1176

原创语音中F0基频建模方法总结

语音合成领域需要对基频进行建模，具体到文语转换TTS、语音转换VC、情感语音转换EVC领域等。

2023-05-03 22:36:02 975

原创 Jitter and shimmer频率微扰与振幅微扰

之前只是听过这个词，但是什么是基频抖动，为什么要基频抖动，怎么抖动都还不是很了解，今天总结一下。

2023-04-21 11:50:32 3212

原创 Cheaptrick算法

2015年Morise发表在SPEECH COMMUNICATION期刊上的一篇文章。该算法目的是获得一个准确的、时间稳定的谱包络，采用基频(F0)，由F0自适应加窗、功率谱平滑和频率域频谱恢复三部分组成。

2023-04-11 21:50:43 638 2

转载什么是倍频程？

倍频程，又称倍波程，指在滤波特性曲线上，频率或波长之比为2或1/2的两个频率或波长之间的间隔。对于长波通滤波器，二分之一波长的截波点称倍波程；对于短波通滤波器,二倍波长的截波点称倍波程。倍波所对应的强度的对数与截波所对应的强度的对数之差的称滤波器陡度。对带通滤波器的波长特性曲线，两截波间的波长范围称波带。截波、陡度和波带是描述滤波器件性能常用的三个参数。看来很多领域学科都用到这个专业名词。上面说的是物理电磁波领域用到的。那我们主要关心声学领域的意义。

2023-04-10 11:33:04 9304

空空如也

空空如也