基于注意力机制的简化歌声合成系统
系统概述
UTACO歌声合成系统采用注意力机制序列到序列模型(AS2S),直接以带歌词的乐谱作为输入,无需依赖振动模式(vibrato)和音素时长等特征的独立子模型。该系统能够自主保持音准,并实现较高的自然度。
技术架构
输入表示
- 输入为MusicXML格式的乐谱
- 通过语言分析确定每个音符对应的音素
- 为每个音素添加音符信息:八度音域、音阶位置(12音阶中的位置)、持续时长
- 添加"进度"信号流(音符起始为1,结束为0)以标识音符边界
模型特点
- 采用注意力机制序列到序列架构
- 直接生成频谱图,通过基于扩张因果卷积的神经声码器转换为波形
- 自主生成所有声学特征,包括振动模式
性能表现
在MUSHRA测试中:
- 人类演唱样本得分:82/100
- UTACO系统得分:60/100
- 对比系统WGANSing得分:31/100
统计检验显示得分差异显著(所有配对t检验p值<10⁻¹⁶)
技术优势
- 简化架构:无需多个子模型生成辅助特征
- 自主决策:能够自主决定振动模式的应用位置
- 持续改进:可受益于AS2S模型领域的最新研究成果
局限性
- 乐谱中的休止符可能导致合成中断(AS2S架构已知问题)
- 时序精度尚有提升空间(音乐家可察觉)
意义与展望
该方法标志着歌声合成领域的重大变革,为未来发展开辟了新的可能性。随着AS2S模型在文本转语音领域的持续发展,相关技术创新可直接应用于该模型。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
公众号二维码

9776

被折叠的 条评论
为什么被折叠?



