基于注意力机制的简化歌声合成系统

基于注意力机制的简化歌声合成系统

系统概述

UTACO歌声合成系统采用注意力机制序列到序列模型(AS2S),直接以带歌词的乐谱作为输入,无需依赖振动模式(vibrato)和音素时长等特征的独立子模型。该系统能够自主保持音准,并实现较高的自然度。

技术架构

输入表示

  • 输入为MusicXML格式的乐谱
  • 通过语言分析确定每个音符对应的音素
  • 为每个音素添加音符信息:八度音域、音阶位置(12音阶中的位置)、持续时长
  • 添加"进度"信号流(音符起始为1,结束为0)以标识音符边界

模型特点

  • 采用注意力机制序列到序列架构
  • 直接生成频谱图,通过基于扩张因果卷积的神经声码器转换为波形
  • 自主生成所有声学特征,包括振动模式

性能表现

在MUSHRA测试中:

  • 人类演唱样本得分:82/100
  • UTACO系统得分:60/100
  • 对比系统WGANSing得分:31/100

统计检验显示得分差异显著(所有配对t检验p值<10⁻¹⁶)

技术优势

  1. 简化架构:无需多个子模型生成辅助特征
  2. 自主决策:能够自主决定振动模式的应用位置
  3. 持续改进:可受益于AS2S模型领域的最新研究成果

局限性

  • 乐谱中的休止符可能导致合成中断(AS2S架构已知问题)
  • 时序精度尚有提升空间(音乐家可察觉)

意义与展望

该方法标志着歌声合成领域的重大变革,为未来发展开辟了新的可能性。随着AS2S模型在文本转语音领域的持续发展,相关技术创新可直接应用于该模型。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
公众号二维码
外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值