SF - GAN:高性能语音合成声码器的探索
1. 引言
在语音合成领域,声码器的性能对于合成语音的质量起着关键作用。为了提升语音合成的质量,研究人员提出了 SF - GAN 声码器,它在 HiFi - GAN 架构的基础上进行了创新,旨在合成高质量的语音。
2. SF - GAN 声码器概述
2.1 整体架构
SF - GAN 声码器主要由源模块和滤波器模块组成,它以帧级 F0 和梅尔频谱图作为输入,输出语音波形。源模块负责将帧级 F0 转换为点级激励信号,而滤波器模块则根据激励信号和梅尔频谱图重建原始波形。该模型采用基于 GAN 的训练策略,并使用 HiFi - GAN 中的 MSD 和 MPD 来捕捉连续和周期性模式。
2.2 源模块
源模块的输入是帧级 F0 序列 (f_{1:L}),其中 (L) 表示帧数。其处理步骤如下:
1. 从 (f_{1:L}) 中提取浊音/清音(V/UV)标志序列 (v_{1:L})。
2. 将 (f_{1:L}) 插值 (N = T/L) 次,以匹配原始波形的时间分辨率,其中 (T) 表示波形采样点数。同时,将 (v_{1:L}) 重复 (N) 次进行上采样。
3. 将插值后的 F0 序列 (f_{1:T}) 和 V/UV 标志序列 (v_{1:T}) 转换为激励信号 (e_{1:T})。对于浊音段,激励信号是基于正弦的信号;对于清音段,是经过 DNN 变换的高斯白噪声。激励信号 (e_t) 的数学定义如下:
[
e_t =
\begin{cases}
\alpha \sin \left( \sum_{
超级会员免费看
订阅专栏 解锁全文
5541

被折叠的 条评论
为什么被折叠?



