9、探索APNet2:高效语音合成的新突破

探索APNet2:高效语音合成的新突破

1 相关工作

在信号处理和机器学习领域,神经声码器备受关注。利用逆短时傅里叶变换(ISTFT)避免直接预测时域波形的方法取得了进展。下面介绍几种代表性的神经声码器。

1.1 iSTFTNet

iSTFTNet首先通过多个带有上采样操作的残差卷积神经网络(ResNets)处理梅尔频谱图,得到幅度谱和相位谱,然后通过ISTFT操作重建波形。由于上采样层的存在,iSTFTNet预测的幅度谱和相位谱具有较高的时间分辨率和较低的频率分辨率。其损失函数与HiFi - GAN类似,包括梅尔频谱图损失、特征匹配损失和基于多周期判别器(MPD)/多尺度判别器(MSD)的最小二乘生成对抗网络(GAN)损失。实验表明,iSTFTNet的推理速度比HiFi - GAN快,合成语音质量与HiFi - GAN相当,但它未实现真正的全帧级幅度和相位预测,推理效率有待提高。

1.2 Vocos

Vocos是一种全帧级神经声码器,能在原始时间分辨率下同时预测幅度谱和相位谱,无需上采样操作。它采用ConvNeXt作为骨干网络,相比ResNet具有更好的建模能力。其损失函数在HiFi - GAN和iSTFTNet的基础上有所改进。Vocos的推理速度比HiFi - GAN显著加快,同时能保持合成语音的质量。不过,iSTFTNet和Vocos都将相位预测视为黑盒,未明确建模,可能影响相位预测的准确性和合成语音的质量。

1.3 APNet

APNet由幅度谱预测器(ASP)和相位谱预测器(PSP)组成,二者并行工作以预测幅度谱和相位谱,然后通过ISTFT重建波形。ASP和PSP的骨干网络均为

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值