2022年1月语音合成(TTS)和语音识别(ASR)论文月报

原创

已于 2022-02-15 20:37:54 修改 · 384 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#语音识别 #人工智能 #tts #深度学习 #机器学习

于 2022-02-07 16:28:00 首次发布

论文统计每月更新一次，主要跟踪语音合成和语音识别的发展状况(很多文章都是在会议后才发出，但不影响统计。统计过程难免存在疏漏，因此统计结果仅供参考。所有文章语音合成领域统计列表请访问http://yqli.tech/page/tts_paper.html，语音识别领域论文统计请访问http://yqli.tech/page/asr_paper.html。如何查找语音资料请参考文章https://mp.weixin.qq.com/s/eJcpsfs3OuhrccJ7_BvKOg）。读者有什么建议可以直接给我发消息，我将不断修改该统计。如有转载，请注明出处。欢迎关注微信公众号：低调奋进。

(2022年第一个月就写简单些）

一语音合成篇

表一给出具体分类说明。2022年1月的语音合成相关的文章有27篇。从表二的具体方向文章数量可知，声学模型、歌唱和音乐合成、声音转化和多模态的文章较多，其中歌唱合成在一月份开源了一份高质量的中文歌唱数据集，大家可以申请下载https://wenet.org.cn/opencpop/download/。具体的文章详细链接可参看文档https://docs.google.com/spreadsheets/d/11YYOg6i6UXw19_g1JRaXGNhvt1zhG24RgOXCzZlqZGE/edit?usp=sharing

表一语音合成分类说明

分类	说明
前端	多音字，韵律，g2p等等。
声学模型	语言特征转声学特征，attention工作，多说话人以及双重学习
声码器	波形生成
个性化	少数据，脏数据应用等自适应
多语言