行业研究现状
1.目前几个大厂和日本、西班牙一个大学都在研究歌声合成。目前先总结目前歌声合成的主要方法。
2. tacotron+wavenet
3. wavenet+world(目前效果最好,也是商用的)
4. glow
5. HMM(日本一个团队主要使用的方法,目前也在做DNN的方法,据说最新的算法效果还不错)
wavenet+world
wavenet
- wavenet是谷歌团队提出的,可以说在音频领域影响是巨大的。
- world是日本某大学的一个博士,是straight作者的得意门生,两个人是师徒。我仅仅有邮件和他们沟通交流过,所以大致了解。
歌声
- 先说一下歌声吧。歌声的特征还是比较多的,参数的维度比较大。所以网络需要很大的修改。
基于HMM的声音合成框架
建模尺度
- 声韵母作为建模单元