2022年1~9月语音合成（TTS)和语音识别(ASR)论文月报

原创

已于 2022-11-02 20:14:54 修改 · 317 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#语音识别 #人工智能 #深度学习 #机器学习 #语音合成

于 2022-10-08 16:27:56 首次发布

论文统计每月更新一次，主要跟踪语音合成和语音识别的发展状况(很多文章都是在会议后才发出，但不影响统计。统计过程难免存在疏漏，因此统计结果仅供参考。所有文章语音合成领域统计列表请访问

一语音合成篇

表一给出具体分类说明。2022年9月的语音合成相关的文章有31篇，相比8月份增加不少（详情见图1），同时也比去年的9月增加很多。表二和图2是语音合成的具体方向文章的情况。本月的文章在声学模型、歌唱、声音转换和多模态较多一些。（最近正在整理纯端到端的系统，有空写篇总结文章，语音合成学术和生产环境进入完全端到端的时代）

表一语音合成分类说明

分类	说明
前端	多音字，韵律，g2p等等。
声学模型	语言特征转声学特征，attention工作，多说话人以及双重学习
声码器	波形生成
个性化	少数据，脏数据应用等自适应
多语言和多说话人	多语言模型、多说话人模型
歌唱合成	歌唱和音乐合成
情感	风格和情感
多模态