语音合成论文优选:Parallel Tacotron 2: A Non-Autoregressive Neural TTS Model with Differentiable Duration Mod

声明:语音合成论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法。如有转载,请标注来源。

欢迎关注微信公众号:低调奋进


Parallel Tacotron 2: A Non-Autoregressive Neural TTS Model with Differentiable Duration Modeling

本文是google在2021.04.13更新的文章,主要解决Parallel Tacotron的对齐问题,本系统不需要额外的对齐信息,具体的文章链接

https://arxiv.org/pdf/2103.14574.pdf

第一篇文章

Parallel Tacotron: Non-Autoregressive and Controllable TTS

的链接

https://arxiv.org/pdf/2010.11439.pdf


1 研究背景

tacotron系列以合成高质量语音和闻名,但其自回归模式限制其速度,因此本文提出了非自回归parallel tacotron,当然其合成质量是接近taoctron2。但parallel tacotron需要额外的对齐信息来训练duration decoder,因此本文在parallel tacotron基础上提出了parallel tacotron2,该模型使用一种新颖的attention机制来进行对齐。(对齐矩阵)

2 详细架构

先来看一下图1展示了parallel tacotron系统架构,主要由input encoder, residual encoder, duration decoder, spectrogram decoder构成。当然该系统也需要借助外部的对齐信息来训练duration decoder 。

接下来的parallel tacotron2主要使用下图的结构进行时长估算。首先duration predictor估算每个token的时长,然后learning upsampling模块根据时长信息来学习attention matrix w和auxiliary attention context C。当然这样预测出来的特征跟真实的特征帧数不一样,无法求loss,因此使用soft-DTW来进行求值。最后的loss为公式7。

3 实验结果

table 1,table 2和table 3显示本文的parallel tacotron2在preference好于parallel tacotron和tacotron2 。图3展示了使用本文进行调速。

4 总结

本文主要解决Parallel Tacotron的对齐问题,本系统不需要额外的对齐信息。

### Autoregressive 和 Non-Autoregressive 模型的差异 #### 定义与工作原理 Autoregressive (AR) 模型通过顺序地生成输出序列中的每一个元素,其中每个新元素基于之前已经生成的所有元素。这意味着 AR 模型在生成过程中存在明显的因果关系链,在每一步都依赖前一时刻的状态来决定当前步的行为[^1]。 相比之下,Non-Autoregressive (NAR) 模型能够在一次操作中并行化地生成整个输出序列,无需逐个预测下一个字符或标记。这种方法打破了传统的时间维度上的串行约束,允许更高效的计算流程[^4]。 #### 计算效率对比 由于 NAR 模型可以在单次迭代内完成全部输出项的同时推断,因此通常比 AR 更快,并且更适合大规模部署环境下的实时应用需求。然而,这种加速是以牺牲一定的准确性为代价的;因为缺乏显式的上下文传递机制,使得早期版本的 NAR 可能在复杂模式识别任务上表现不佳[^3]。 随着技术进步,现代 NAR 方法如 Glancing Language Model 已经引入了创新性的训练策略——比如渐进式学习路径设计以及自适应采样方案——从而有效缓解了上述局限性,实现了性能提升的同时保持高效能优势。 ```python # 示例代码展示两种模型的不同之处 def autoregressive_model(input_sequence): output = [] for i in range(len(input_sequence)): next_item = predict_next_element(output[:i]) # 基于已知部分预测下一项 output.append(next_item) return output def non_autoregressive_model(): all_elements = parallel_predict_entire_output() # 并行预测所有元素 return all_elements ``` #### 应用场景分析 - **语音合成**:对于高质量音频文件的创建来说,AR 模型往往提供更好的音质效果,尽管其处理速度较慢。而在低延迟要求较高的场合,则可能倾向于选择经过优化后的 NAR 解决方案。 - **机器翻译**:当追求极致的速度时,NAR 架构因其快速解码特性而受到青睐;但对于那些重视译文流畅度的应用而言,AR 则提供了更为自然的语言表达方式。 - **时间序列预测**:ARCLMs 是处理涉及多个变量随时间变化的关系的理想工具,适用于金融市场趋势预报等领域。而对于某些特定类型的短期波动捕捉或是需要即时响应的任务,精心调校过的 NAR 方案同样具备竞争力[^2]。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

我叫永强

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值