高表现力语音模型构建指南

在6月份,某中心推出了名为"阅读伙伴"的新功能,该功能通过与智能助手轮流阅读来帮助孩子成长为自信的读者,同时智能助手会提供鼓励和支持。为了让这一体验更具吸引力和娱乐性,某中心的文本转语音团队开发了一个版本的智能助手语音,该语音比标准的中性语音语速更慢,表现力更丰富。

由于表达性语音比中性语音更具变化性,表达性语音模型容易出现稳定性问题,例如突然停顿或刺耳的变调。为了解决这个问题,模型开发人员可能会收集代表特定风格的数据,但这种方法成本高昂且耗时。他们可能会部署不基于注意力机制的模型,但无注意力模型更复杂,需要更多部署工作,并且通常会导致额外的延迟。

目标是开发高度表达性的语音,同时不增加数据收集或模型部署的负担。通过两种方式实现这一目标:开发新的数据预处理方法,以及提供适用于表达性语音的模型。在构建模型前后,还与用户体验研究人员密切合作。

为了确定要收集的训练数据,在项目开始前进行了用户体验研究,让儿童和家长听合成叙事段落的基础语音。结果表明,较慢的语速和增强的表现力将改善客户体验。在录制训练数据时,主动控制了语速和表现力水平。构建模型后,进行了第二次用户体验研究,发现在故事阅读方面,受试者对新语音的偏好是标准智能助手语音的两倍。

数据管理

高度表达性语音模型的不稳定性是由于"极端韵律"造成的,这在儿童书籍阅读中很常见。韵律是语音的节奏、重音、旋律、持续时间和响度;成年人在给幼儿阅读时经常会夸张地变化语调,大幅改变音量,延长或缩短单词持续时间以传达意义并保持听众的注意力。

虽然希望数据集能捕捉广泛的表现力范围,但有些话语可能过于极端。开发了一种新的训练数据预处理方法,可以去除此类异常值。对于每个话语,计算说话人嵌入——捕捉说话人声音韵律特征的向量表示。如果给定说话人嵌入与平均嵌入之间的距离太大,就从训练集中丢弃该话语。

接下来,从每个语音样本中移除无法自动从音频转录为文本的片段。由于大多数此类片段是静音,移除它们可以防止模型在单词之间停顿时间过长。

建模

在建模方面,使用正则化和数据增强来提高稳定性。基于神经网络的文本转语音系统包含两个组件:(1)梅尔频谱生成器和(2)声码器。梅尔频谱生成器将音素序列作为输入,并输出可听频率的信号幅度。它负责语音的韵律。

声码器将相位信息添加到梅尔频谱中,以创建合成语音信号。没有相位信息,语音就会显得机械。团队先前开发了一个适用于此应用的通用声码器。

在训练期间,对梅尔频谱生成器的权重应用L2惩罚;即,偏离平均值的权重在训练期间会受到惩罚,惩罚随偏差的平方而变化。这是正则化的一种形式,可以减少对录制数据的过拟合。

还使用数据增强来改善输出语音。将中性录音添加到训练录音中,为模型提供学习的不那么极端的韵律轨迹。

作为额外输入,为两种类型的训练数据向模型提供风格标识,这有助于模型区分讲故事风格与智能助手中可用的其他风格。录制、处理和正则化的结合使模型保持稳定。

评估

为了评估阅读伙伴语音,要求成年众包测试者选择他们更喜欢哪种语音给儿童读故事。标准智能助手语音作为基线。测试了100个平均持续时间约15秒的短段落,每个段落由不同的众包测试者评估30次。测试者是英语母语者;测试者选择没有其他限制。

结果明显偏向阅读伙伴语音(61.16%选择阅读伙伴对比30.46%选择基线,P<0.001),特别是考虑到众包评估的噪声性质以及没有丢弃任何接收到的数据这一事实。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值