语音合成论文优选: Multi-rate attention architecture for fast streamable Text-to-speech spectrum modeling

声明:语音合成论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法。如有转载,请标注来源。

 

欢迎关注微信公众号:低调奋进


Multi-rate attention architecture for fast streamable Text-to-speech spectrum modeling

本文是facebook在20210.04.01更新的文章,主要提出multi-rate attention减少latency,使其无论句子长短都保持RTF稳定,具体的文章链接

https://arxiv.org/pdf/2104.00705.pdf


1 研究背景

典型的tts主要分为两个阶段:生成声学特征的阶段和声码器​阶段。然而现有的模型的latency和real-time factor跟句子的长度有关,句子越长,以上的两个指标越长,这不利于要求较少latency的服务​。本文提出了multi-rate attention从而使较少latency和​RTF。

2 详细设计

整体的架构如图1所示,其中linguistic frontend把文本转成图2中的多层级的语言特征,prosody model生成帧级特征,该特征主要由帧的位置,音素时长和​f0等等。其中本文的spectrum model如图3所示,muti-rate attention的query的帧级别的特征,k,v为word ,syllable 和phone​各自生成。

3 实验结果

MOS的结果如table 1所示,其中本文mulit-rate attention效果最好(对该结果我感觉有些问题,尤其tacotron 2竟这么低?不做太多评论)​。另外RTF的随着句子长度的变化情况,本文的mulit-rate attention变化很小。

4 总结

本文提出了提出multi-rate attention减少latency,使其无论句子长短都保持RTF稳定​。​

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

我叫永强

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值