HAM-TTS大模型:基于token的零样本文字转语音分层声学建模
吉利自研语音大模型HAM-TTS的全称是:Hierarchical Acoustic Modeling for Token-Based Zero-Shot Text-to-Speech,直译是基于token的零样本文字转语音分层声学建模,是星睿AI大模型体系下的重要一员。顾名思义,对于智能座舱体验来说,这项技术作用在最关键的交互环节: “发音” 。
论文地址:https://arxiv.org/abs/2403.05989
本文提出了一种基于深度学习的文本到语音(TTS)系统,称为HAM-TTS,旨在提高生成语音的质量,特别是在发音准确性、说话风格一致性以及音色连贯性方面。该模型采用了一种层次化的声学建模方法,并结合了数据增强策略和预训练的合成数据,使得训练数据规模扩大至650,000小时。通过引入一个包含补充声学信息的潜在变量序列到TTS模型中,并利用预测器进行转换,有效改善了语音的发音准确性和风格一致性。此外,还设计了一种策略来增强合成语音的音色连贯性。实验结果显示,与当前最先进的VALL-E模型相比,HAM-TTS在发音精确度