55、基于单元选择的语音合成中F0动态建模

基于单元选择的语音合成中F0动态建模

在语音合成领域,实现自然流畅的语音输出是一个重要目标。在常见的单元选择实现中,F0连续性通常被作为拼接成本特征之一来衡量,期望当F0差异足够小时能确保语音单元的平滑过渡。然而,仅使用静态F0值并不足以实现语音单元的平滑拼接,必须考虑F0轮廓的动态特性。

1. 引言

在单元选择语音合成中,许多研究都在探讨拼接成本特征。多数研究旨在确定频谱不连续的来源,但结果往往相互矛盾。有研究表明,大量可听的不连续现象往往出现在拼接点周围F0值不一致的地方。

在单元选择研究中,普遍认为在单元边界纳入F0连续性测量是实现平滑拼接的必要条件。通常,作者们将这一特征限制为简单的“静态”F0差值(以Hz为单位,某些情况下为log(Hz)),即 $d = | f e(i) - f b(i + 1) |$,其中 $f e(i)$ 表示第 $i$ 个单元末尾的F0值,$f b(i + 1)$ 表示第 $(i + 1)$ 个单元开头的F0值。不同方法的F0计算方式可能不同,但基本上都是通过几个周期的平均值来消除微观韵律中F0的快速变化。无论采用何种F0计算方案,都必须确保在语音语料库中相邻的两个单元满足 $f e(i) = f b(i + 1)$,即 $d = 0$。

本文将描述并讨论考虑更广泛F0上下文的初步实验。与以往评估元音中间有单个拼接点的特殊设计短语不同,我们将在真实的TTS系统上进行实验并获取结果。

2. F0动态建模方法

2.1 拼接成本计算的基线实现

在TTS系统ARTIC中,拼接两个单元(这里是双音素)$i$ 和 $i + 1$ 时,拼接成本 $Cc(i, i + 1)$

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值