技术解读 | 科大讯飞语音技术最新进展之二:语音识别与语音合成

本文介绍了科大讯飞在语音识别和语音合成方面的最新进展。针对自回归端到端建模的局限,提出了基于文本语音统一空间表达的非自回归ASR框架,以及多元语义评价的多任务学习框架,以提升识别准确性和可懂度。在语音合成领域,SMART-TTS框架通过模块化学习强化了文本到语音的转换,而虚拟音色生成技术则解决了元宇宙和有声内容中角色声音个性化的问题,已生成超过500个高质量的合成音色。

这一篇内容将围绕语音识别与合成方向,继续为大家带来相关技术解析。

“风物长宜放眼量”。面向人机交互更加自然流畅的未来,智能语音技术进展如何?该走向何方?

以下内容根据讯飞研究院杰出科学家潘嘉在NCMMSC 2022上的主题演讲《科大讯飞语音技术前沿进展》整理。


技术专业度:⭐⭐⭐⭐⭐

目录

语音识别

1、主流框架均为自回归端到端建模

2、提出基于文本语音统一空间表达的非自回归ASR框架

3、进一步提出多元语义评价的多任务学习框架

语音合成

1、提出SMART-TTS

2、虚拟音色生成

语音识别

  • 主流框架均为自回归端到端建模

当前,基于自回归方式的端到端建模已经成为语音识别的主流框架。主要包含Attention-based Encoder-Decoder以及引入预测网络的Transducer结构。所谓自回归方式相当于在语音识别模型中引入了语言模型机制,其特点是预测当前识别结果需用等待先前历史的识别结果。

但是在真正大规模部署时,自回归的性质会影响并行程度和推理效率,因此我们思考是否能建立一个高准确率的非自回归的框架,便很自然想到了CTC(Connectionist temporal classification,连接时序分类)——作为非自回归的框架,其特性会将输出表现为尖峰的形式。

  • 提出基于文本语音统一空间表达的非自回归ASR框架

如果做汉字的CTC

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值