这一篇内容将围绕语音识别与合成方向,继续为大家带来相关技术解析。
“风物长宜放眼量”。面向人机交互更加自然流畅的未来,智能语音技术进展如何?该走向何方?
以下内容根据讯飞研究院杰出科学家潘嘉在NCMMSC 2022上的主题演讲《科大讯飞语音技术前沿进展》整理。
技术专业度:⭐⭐⭐⭐⭐
目录
语音识别
1、主流框架均为自回归端到端建模
2、提出基于文本语音统一空间表达的非自回归ASR框架
3、进一步提出多元语义评价的多任务学习框架
语音合成
1、提出SMART-TTS
2、虚拟音色生成
语音识别
-
主流框架均为自回归端到端建模
当前,基于自回归方式的端到端建模已经成为语音识别的主流框架。主要包含Attention-based Encoder-Decoder以及引入预测网络的Transducer结构。所谓自回归方式相当于在语音识别模型中引入了语言模型机制,其特点是预测当前识别结果需用等待先前历史的识别结果。

但是在真正大规模部署时,自回归的性质会影响并行程度和推理效率,因此我们思考是否能建立一个高准确率的非自回归的框架,便很自然想到了CTC(Connectionist temporal classification,连接时序分类)——作为非自回归的框架,其特性会将输出表现为尖峰的形式。
-
提出基于文本语音统一空间表达的非自回归ASR框架
如果做汉字的CTC

本文介绍了科大讯飞在语音识别和语音合成方面的最新进展。针对自回归端到端建模的局限,提出了基于文本语音统一空间表达的非自回归ASR框架,以及多元语义评价的多任务学习框架,以提升识别准确性和可懂度。在语音合成领域,SMART-TTS框架通过模块化学习强化了文本到语音的转换,而虚拟音色生成技术则解决了元宇宙和有声内容中角色声音个性化的问题,已生成超过500个高质量的合成音色。
最低0.47元/天 解锁文章
5030

被折叠的 条评论
为什么被折叠?



