基于课程学习的TTS模型快速收敛方法
1. 课程学习的音频处理
在进行课程学习时,对于对应相同文本的不同课程音频会放在一起,以便进行相对比较。为避免偏差,每个句子对应的不同课程音频顺序会随机打乱。同时,由于有些音频听起来可能非常相似,为避免让听众进行困难的排序,而是让他们按照1 - 5的自然度等级对每个音频进行评分,从而更精细地捕捉偏好。
2. 课程学习标准
要将课程学习应用到任何任务中,需要解决两个关键问题:如何对训练示例进行排序,以及如何根据此排序修改采样过程。因此,根据应用需求,需要定义两个函数:
- 评分函数 :用于对训练示例进行排序。
- 节奏函数 :基于排序修改采样过程。
为加速TTS任务的学习,尝试了以下评分函数来对(文本,音频)训练示例进行排序:
- 文本长度 :在神经机器翻译任务中,“文本长度”被证明是衡量训练样本难度的有效指标。由于端到端TTS模型和神经机器翻译器一样涉及文本编码,所以认为这个直观的难度指标对TTS任务也有帮助。具体来说,将训练样本文本输入中的字符数量作为文本长度。因为它是基于文本的特征,所以可以在录制音频之前就为数据集计算,这在TTS部署中非常有益。
- 声学特征 :还尝试了声学特征,以探索其加速TTS模型收敛的作用。相关研究表明,低清晰度和低F0标准差的语音在训练TTS模型时能生成音质更好的样本。其中,清晰度的定义如下:
[
articulation = \frac{total\ energy}{average\ spe
超级会员免费看
订阅专栏 解锁全文

1185

被折叠的 条评论
为什么被折叠?



