语音合成论文优选：Towards Multi-Scale Style Control for Expressive Speech Synthesis

多尺度风格控制在情感语音合成中的应用

最新推荐文章于 2024-10-12 19:38:48 发布

原创最新推荐文章于 2024-10-12 19:38:48 发布 · 507 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#语音识别 #人工智能 #深度学习

语音合成论文专栏收录该内容

104 篇文章

订阅专栏

部署运行你感兴趣的模型镜像

声明：语音合成论文优选系列主要分享论文，分享论文不做直接翻译，所写的内容主要是我对论文内容的概括和个人看法。如有转载，请标注来源。

欢迎关注微信公众号：低调奋进

以后文章阅读不对论文的好坏和缺点进行点评，感觉有点得罪人。以后文章主要讲解论文的主要内容即可。

Towards Multi-Scale Style Control for Expressive Speech Synthesis

本文是清华大学在2021.04.08更新的文章，主要提出使用全局特性GST和局部特性LPE来控制情感语音合成，具体的文章链接

https://arxiv.org/pdf/2104.03521.pdf

相关的主题总结可以参考的另外一篇文章：

语音合成（speech synthesis）方向八：韵律迁移和建模

https://mp.weixin.qq.com/s?__biz=MzAxNjY3NjQwOQ==&mid=2247484979&idx=1&sn=337db509581939541cb92786392047d7&chksm=9bf06565ac87ec73a6365cd67aa8871e9fb376869f3ff37dda9b0c0fc60cd7713985054951bf&token=717450471&lang=zh_CN#rd

1 研究背景

现在的情感语音合成可以使用全局特性（句子级别）和局部特性（短语，音素，帧级别）等多尺度特征来控制情感音频的合成。但目前的多尺度的语音情感控制存在局部特征没有完全考虑句子级别的语境信息，而学习的全局信息往往是同一类标签的均值信息，没有完全与给出的参考音频的特征。为了解决以上的问题，本文提出了基于multi-scale的端到端的情感语音合成系统。

2 详细设计

本文的系统架构如图1所示，其中global和local feature使用同一个multi-scale reference encoder,其结构如图2所示。我们可以看一下图2结构，参考语音特征经过6层卷积后生成quasi-phoneme-scale序列，该序列分别经过global和local的gru层来获取相应的信息。在推理的阶段，local和global可以使用不同的参考语音，使情感进行交叉。