语音合成中门控情感表征的情感门方法
1. 研究背景与贡献
在语音合成领域,情感表达的精准度和可控性一直是重要的研究方向。当前提出的方法旨在解决现有基于排序函数方法在语音合成中存在的问题,实现更有效的情感表达和控制。该方法的主要贡献如下:
- 提出的情感门(EG)构建了门控情感表征,弥补了基于排序函数方法在语句级训练和细粒度推理之间的差距,提升了情感表达性能。
- 首次在端到端范式下对语音合成中的细粒度情感强度进行建模。
- 验证了该方法在非转移情感文本转语音(TTS)和跨说话人情感转移TTS中都具有强大的情感强度控制能力。
2. 方法介绍
2.1 基于排序函数的细粒度情感强度
近期多数工作采用相对属性方法训练语句级排序函数 $f_{rank}$ 来标注语音片段的细粒度情感强度。具体步骤如下:
1. 假设学习排序函数的训练集为 $T$,由语句级情感特征 ${x_u}$ 表示,其中 $u$ 是语句的索引,且 $T = N ∪ E$,$N$ 和 $E$ 分别是中性和快乐情感集。
2. 目标是学习排序函数 $f_{rank}(x_u) = wx_u$,使其满足以下约束条件:
- 对于有序集 $O$ 中的样本对 $(i, j)$($i \in E$ 且 $j \in N$),有 $f_{rank}(x_i) > f_{rank}(x_j)$。
- 对于相似集 $S$ 中的样本对 $(i, j)$(来自同一类别),有 $f_{rank}(x_i) = f_{rank}(x_j)$。
3. $w$ 通过牛顿法学习得到。
4. 训练好排序函数后,将细粒度语音片段输入该函数,
超级会员免费看
订阅专栏 解锁全文
173

被折叠的 条评论
为什么被折叠?



