74、文本转语音(TTS)中的韵律生成详解

文本转语音(TTS)中的韵律生成详解

1. 韵律生成概述

韵律生成在文本转语音(TTS)系统中至关重要,它涉及从语用抽象到语音实现的一系列过程。输入到韵律模块的是带有音素串的解析文本,输出则是每个音素的持续时间和音高轮廓。

例如,对于句子 “The cat sat”,其丰富的韵律表示如图所示,每行包含一个音素的标识、音素持续时间(以毫秒为单位)以及多个指定音高和可能音量的韵律点。每个韵律点由一个时间点(表示为音素持续时间的百分比)及其对应的音高值(以 Hz 为单位)确定。符号 “#” 是单词分隔符。

DH, 24
(0,178);
AH0, 104
;
#;
K,
80
(25,178)
(50,184)
(75,201);
AE1, 152
(0,214)
(25,213)
(50,204)
(75,193);
T,
40
(0,175)
(25,175)
(50,174)
(75,172);
#;
S,
104
(0,171)
(25,172)
(50,180)
(75,189);
AE1, 104
(0,198)
(25,196)
(50,168)
(75,137);
T,
112
(0,120)
(100,120);
#;

韵律生成系统通常包含以下几个关键模块:说话风格、符号韵律(包括停顿插入)、时长分配和音高生成。

2. 说话风格

2.1 说话风格的影响

韵律不仅仅取决于句子的语言内容。不同的人对同一句话会产生不同的韵律,即使是同一个人,也会根据自己的情绪产生不同的韵律。说话风格能为交流赋予整体基调

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值