探索APNet2:高效语音合成的新突破
1 相关工作
在信号处理和机器学习领域,神经声码器备受关注。利用逆短时傅里叶变换(ISTFT)避免直接预测时域波形的方法取得了进展。下面介绍几种代表性的神经声码器。
1.1 iSTFTNet
iSTFTNet首先通过多个带有上采样操作的残差卷积神经网络(ResNets)处理梅尔频谱图,得到幅度谱和相位谱,然后通过ISTFT操作重建波形。由于上采样层的存在,iSTFTNet预测的幅度谱和相位谱具有较高的时间分辨率和较低的频率分辨率。其损失函数与HiFi - GAN类似,包括梅尔频谱图损失、特征匹配损失和基于多周期判别器(MPD)/多尺度判别器(MSD)的最小二乘生成对抗网络(GAN)损失。实验表明,iSTFTNet的推理速度比HiFi - GAN快,合成语音质量与HiFi - GAN相当,但它未实现真正的全帧级幅度和相位预测,推理效率有待提高。
1.2 Vocos
Vocos是一种全帧级神经声码器,能在原始时间分辨率下同时预测幅度谱和相位谱,无需上采样操作。它采用ConvNeXt作为骨干网络,相比ResNet具有更好的建模能力。其损失函数在HiFi - GAN和iSTFTNet的基础上有所改进。Vocos的推理速度比HiFi - GAN显著加快,同时能保持合成语音的质量。不过,iSTFTNet和Vocos都将相位预测视为黑盒,未明确建模,可能影响相位预测的准确性和合成语音的质量。
1.3 APNet
APNet由幅度谱预测器(ASP)和相位谱预测器(PSP)组成,二者并行工作以预测幅度谱和相位谱,然后通过ISTFT重建波形。ASP和PSP的骨干网络均为
超级会员免费看
订阅专栏 解锁全文
31

被折叠的 条评论
为什么被折叠?



