1 VITS模型介绍
VITS(Variational Inference with adversarial learning for end-to-end Text-to-Speech)是一种结合变分推理(variational inference)、标准化流(normalizing flows)和对抗训练的高表现力语音合成模型。
VITS模型是韩国科学院在2021年6月提出的,VITS通过隐变量而非频谱串联起来语音合成中的声学模型和声码器,在隐变量上进行随机建模并利用随机时长预测器,提高了合成语音的多样性,输入同样的文本,能够合成不同声调和韵律的语音。
论文地址:VITS论文
2 VITS模型结构

2.1 总体结构
-
先验编码器:TextEncoder由多层的transformer encoder组成,预测的结果输出均值与方差。
-
后验编码器:由conv1d+WN网络组成+conv1d组成。输出得到均值与方差,并且使用FLOW得到复杂分布z_p。通过flow后的复杂分布z_

VITS是一种结合变分推理、标准化流和对抗训练的语音合成模型,由韩国科学院于2021年提出。该模型通过隐变量连接声学模型和声码器,提高合成语音的多样性。VITS采用变分自编码器和对抗训练,实现真正的端到端合成,简化了传统两阶段TTS系统的复杂性,但可能在语调建模上存在局限性,适合多说话人模型。文章提供了使用VITS进行中文语音合成训练的步骤和资源。
最低0.47元/天 解锁文章
815

被折叠的 条评论
为什么被折叠?



