24、基于课程学习的TTS模型快速收敛方法

最新推荐文章于 2025-11-22 15:06:22 发布

oo7890

最新推荐文章于 2025-11-22 15:06:22 发布

阅读量28

点赞数

CC 4.0 BY-SA版权

分类专栏： SPECOM 2023前沿之声文章标签：课程学习 TTS模型快速收敛

本文链接：https://blog.youkuaiyun.com/oo7890/article/details/151702330

SPECOM 2023前沿之声专栏收录该内容

59 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

基于课程学习的TTS模型快速收敛方法

1. 课程学习的音频处理

在进行课程学习时，对于对应相同文本的不同课程音频会放在一起，以便进行相对比较。为避免偏差，每个句子对应的不同课程音频顺序会随机打乱。同时，由于有些音频听起来可能非常相似，为避免让听众进行困难的排序，而是让他们按照1 - 5的自然度等级对每个音频进行评分，从而更精细地捕捉偏好。

2. 课程学习标准

要将课程学习应用到任何任务中，需要解决两个关键问题：如何对训练示例进行排序，以及如何根据此排序修改采样过程。因此，根据应用需求，需要定义两个函数：
- 评分函数 ：用于对训练示例进行排序。
- 节奏函数 ：基于排序修改采样过程。

为加速TTS任务的学习，尝试了以下评分函数来对（文本，音频）训练示例进行排序：
- 文本长度 ：在神经机器翻译任务中，“文本长度”被证明是衡量训练样本难度的有效指标。由于端到端TTS模型和神经机器翻译器一样涉及文本编码，所以认为这个直观的难度指标对TTS任务也有帮助。具体来说，将训练样本文本输入中的字符数量作为文本长度。因为它是基于文本的特征，所以可以在录制音频之前就为数据集计算，这在TTS部署中非常有益。
- 声学特征 ：还尝试了声学特征，以探索其加速TTS模型收敛的作用。相关研究表明，低清晰度和低F0标准差的语音在训练TTS模型时能生成音质更好的样本。其中，清晰度的定义如下：
[
articulation = \frac{total\ energy}{average\ spe

会员秒杀 ¥9.9 重磅福利

超级会员免费看