语音代理(如Alexa)通常包含多种不同的语音合成器,这些合成器在表现力、个性、语言和说话风格等属性上各不相同。支撑这些不同应用的机器学习模型可能具有完全不同的架构,将这些架构集成到单一语音服务中是一个耗时且具有挑战性的过程。
为简化并加速这一过程,某中心的文本转语音团队开发了通用模型集成框架,能够以快速且可扩展的方式定制生产级语音模型。
模型多样性
最先进的语音模型通常使用两个大型神经网络从文本输入合成语音。第一个网络称为声学模型,以文本作为输入并生成梅尔频谱图(一种随时间表示语音音高和能量等声学参数的图像)。第二个网络称为声码器,以梅尔频谱图作为输入并生成语音音频波形作为最终输出。
虽然已发布支持多种说话风格的通用声码器架构,但仍需使用不同的声学模型架构来生成这种多样化的说话风格。
声学模型最常见的架构依赖于注意力机制,该机制学习输入文本的哪些元素与输出频谱图的当前时间片(或“帧”)最相关。通过这种机制,网络隐式建模文本不同部分的语音持续时间。
该模型还使用“教师强制”技术,即使用先前生成的语音帧作为输入来生成下一帧。虽然这种架构可以生成富有表现力且自然的语音,但容易产生清晰度错误(如含糊不清、丢词或重复词),且错误容易在帧之间累积。
更现代的架构通过显式建模文本块的持续时间并并行生成语音帧来解决这些问题,这比依赖先前生成的帧作为输入更高效和稳定。为对齐文本和语音序列,模型简单地进行“上采样”,或根据外部持续时间模型指定的语音帧数重复其文本块的编码(其表示向量)。
在不同场景(如问答、儿童故事讲述和智能家居自动化)中使用的复杂TTS模型的持续演进,催生了需要能够处理所有模型的可扩展框架。
集成挑战
将声学模型集成到生产中,需要一个接收输入文本话语并返回梅尔频谱图的组件。第一个困难是语音通常以顺序块生成,而不是一次性合成。为最小化延迟,框架应尽快返回数据。将整个模型包装在代码中并通过单一函数调用处理所有内容的简单解决方案速度会慢得无法接受。
另一个挑战是调整模型以适配各种硬件加速器。例如,为受益于高性能AWS Inferentia运行

最低0.47元/天 解锁文章
839

被折叠的 条评论
为什么被折叠?



