如何用紧凑型语音表征打造高性能语音合成系统

小红书与香港中文大学合作提出了MSMC-TTS,这是一种基于多阶段多码本紧凑型语音表征的语音合成方案。该方案通过多头矢量量化和多时间尺度建模,提高了语音合成的音质和自然度,降低了对模型复杂度的需求。在Nancy数据集上的实验显示,相比于基于Mel-Spectrogram的Fastspeech,MSMC-TTS的合成效果显著提升。

小红书多媒体智能算法团队和香港中文大学首次联合提出了基于多阶段多码本紧凑型语音表征的高性能语音合成方案 MSMC-TTS。基于矢量量化变分自编码器(VQ-VAE)的特征分析器采用若干码本对声学特征进行阶段式编码,形成一组具有不同时间分辨率的隐序列集合。这些隐序列可以由多阶段预测器从文本中预测获得,并且通过神经声码器转换成目标音频。该方案,对比基于Mel-Spectrogram的Fastspeech 基线系统,音质和自然度有明显的改善。该工作现已总结成论文 “A Multi-Stage Multi-Codebook VQ-VAE Approach to High-Performance Neural TTS”,并被语音领域会议 INTERSPEECH 2022 接收。

  语音合成(Text-to-Speech, 简称 TTS)是把文本转化为语音的一种技术,被广泛应用于视频配音、音视频内容创作、智能人机交互等产品中。主流语音合成系统后端的声学建模技术通常包括特征提取器,声学模型和声码器三部分。TTS 通常会对基于信号处理获得的声学特征(例如梅尔谱 Mel Spectrogram)进行声学建模,但受限于模型的拟合能力,预测得到的声学特征和真实数据在分布上存在一定差异,这导致在真实数据上训练的声码器难以从预测特征中生成高质量音频。

TTS 系统框架图

针对这一难题,学界使用了更为复杂的模型结构和更为新颖的生成式算

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

小红书技术REDtech

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值