2021年语音合成论文月报（1~7月）

最新推荐文章于 2022-12-22 11:36:13 发布

原创最新推荐文章于 2022-12-22 11:36:13 发布 · 223 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#语音识别 #人工智能 #深度学习 #机器学习 #tts

语音合成综述专栏收录该内容

44 篇文章

订阅专栏

这篇博客分享了2022年7月的语音合成论文统计情况，相较于前几个月，7月论文数量显著下降。主要研究方向集中在声学模型优化、风格情感、声码器和声音转换。尽管前端工作相对较少，但整体领域依然活跃，特别是关注于多说话人、双重学习和基于GAN的声音转换方案。统计结果可供参考，并提供了所有文章的列表链接。

部署运行你感兴趣的模型镜像

论文统计每月更新一次，主要跟踪语音合成的发展状况(很多文章都是在会议后才发出，但不影响统计。统计过程难免存在疏漏，因此统计结果仅供参考，所有文章统计列表请访问http://yqli.tech/page/tts_paper.html）。读者有什么建议可以直接给我发消息，我将不断修改该统计。如有转载，请注明出处。欢迎关注微信公众号：低调奋进。

首先，先看一下每月的文章数量，可能进入论文长草期，7月的论文明显下降很多，只有23篇。（现在正在做语音识别的论文统计，该工作量比合成要大许多）

接下来，看一下每个方向的情况。由下面表格的具体数据和柱状图可知，语音合成前端的工作依然很清淡，主要的研究方向还是声学模型的优化、风格情感、声码器和声音转换。

语音合成文章情况表（单位：篇）

		1月	2月	3月	4月	5月	6月	7月
前端	多音字，韵律，g2p等等。	1	0	0	3	0	0	0
声学模型	语言特征转声学特征，attention工作，多说话人以及双重学习	1	7	5	10	8	17	4
声码器	波形生成	1	3	3	3	1	12	2
个性化	少数据，脏数据应用等自适应	1	1	5	3	0	1	0
多语言	多语言模型	0	0	0	0	1	0	0
歌唱合成	歌唱和音乐合成	0	1	2	1	4	2	2
情感	风格和情感	2	2	0	3	1	5	2
多模态	talking head等等	2	1	1	2	4	3	2
声音转换	基于GAN方案和特征解耦方案	4	2	4	10	5	8	6
其它	基于EEG合成，数据，MOS评测以及语音合成的应用	1	1	0	5	3	5	7