声明:语音合成论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法。如有转载,请标注来源。
欢迎关注微信公众号:低调奋进
Reinforce-Aligner: Reinforcement Alignment Search for Robust End-to-End Text-to-Speech
本文为Department of Artificial Intelligence, Korea University, Seoul, Korea在2021.06.05更新的文章,本文主要使用增强学习来进行对齐学习,并且设计text-to-waveform的系统,使语音合成的整个流程更加简单,具体文章
https://arxiv.org/pdf/2106.02830.pdf
1 背景
现有tts系统都需要phoneme-to-frame的对齐信息,因此常用的方法是使用attention机制或者使用外部的aligner来提供对齐信息。本文使用增强学习的方法来进行对齐学习,并提出了text-to-waveform的系统,使其合成的语音更加自然。
2 详细设计
本文的整个架构如图1所示,environment即text-to-waveform系统,该部分通过合成waveform从而为aligner提供reward,而aligner接受该reward后采用不同的action来学习phoneme的duration。具体的系统如图2所示。这里不细讲每个系统的网络参数,我想讲一下有意思的对齐学习过程。


首先我们可以看到aligner,图2的a可知。encoder的输出经过duration predictor预测出每个phoneme的duration。对该duration序列根据reward进行修改,其action包括keep和shift,其中keep保存原来的duration不变,shift则对其进行交叉α(该值是超参)的修改,之所以进行交叉正负修改,为了保持总的帧数不变。现在我们如何获得reward,该reward是keep和shift两种操作生成的waveform所对应的feature和ground truth的feature之间的l1 loss,谁小就选择谁。本文的reward设计两类,phoneme-wise和segment-wise。这样不断调整该duration 序列,可以学习到最终的对齐信息。(这个地方很绕,我看了好久才搞明白这里)

3 实验
由table 1和图3所示,使用phoneme-wise(α=2)效果最好,其mos最高。table 2显示本文的text-to-waveform的方案比tacotron2都好。



4 总结
本文使用增强学习的方法来学习对齐信息,并设计了text-to-waveform的合成系统,其效果比taoctron2的效果都好。
1611

被折叠的 条评论
为什么被折叠?



