小红书多媒体智能算法团队和香港中文大学首次联合提出了基于多阶段多码本紧凑型语音表征的高性能语音合成方案 MSMC-TTS。基于矢量量化变分自编码器(VQ-VAE)的特征分析器采用若干码本对声学特征进行阶段式编码,形成一组具有不同时间分辨率的隐序列集合。这些隐序列可以由多阶段预测器从文本中预测获得,并且通过神经声码器转换成目标音频。该方案,对比基于Mel-Spectrogram的Fastspeech 基线系统,音质和自然度有明显的改善。该工作现已总结成论文 “A Multi-Stage Multi-Codebook VQ-VAE Approach to High-Performance Neural TTS”,并被语音领域会议 INTERSPEECH 2022 接收。

语音合成(Text-to-Speech, 简称 TTS)是把文本转化为语音的一种技术,被广泛应用于视频配音、音视频内容创作、智能人机交互等产品中。主流语音合成系统后端的声学建模技术通常包括特征提取器,声学模型和声码器三部分。TTS 通常会对基于信号处理获得的声学特征(例如梅尔谱 Mel Spectrogram)进行声学建模,但受限于模型的拟合能力,预测得到的声学特征和真实数据在分布上存在一定差异,这导致在真实数据上训练的声码器难以从预测特征中生成高质量音频。

TTS 系统框架图
针对这一难题,学界使用了更为复杂的模型结构和更为新颖的生成式算

小红书与香港中文大学合作提出了MSMC-TTS,这是一种基于多阶段多码本紧凑型语音表征的语音合成方案。该方案通过多头矢量量化和多时间尺度建模,提高了语音合成的音质和自然度,降低了对模型复杂度的需求。在Nancy数据集上的实验显示,相比于基于Mel-Spectrogram的Fastspeech,MSMC-TTS的合成效果显著提升。
最低0.47元/天 解锁文章
75

被折叠的 条评论
为什么被折叠?



