新Alexa功能:语音风格自适应
根据对话上下文调整语调和说话风格是实现"概念到语音"转换的第一步。
今天,某机构设备高级副总裁在西雅图发布了其组织的最新产品和服务系列。在演示过程中,某机构副总裁兼Alexa首席科学家描述了Alexa科学团队的三项新进展,其中之一就是语音风格自适应。
Alexa的语音由文本转语音模型生成,这些模型将Alexa自然语言理解模型和对话管理器的文本输出转换为合成语音。
近年来,Alexa一直在使用基于神经网络的神经TTS,这不仅使得语音听起来更自然,还大大提高了多功能性。神经TTS使Alexa能够改变其说话风格,并能够将韵律或语调模式从一个声音转移到另一个声音。
在人类语音中,说话风格和韵律通常取决于上下文,为了使Alexa与客户的互动尽可能自然,她也应该如此。例如,想象以下交流:
客户:Alexa,播放Village People。
Alexa:你是指乐队、专辑还是歌曲?
人类说话者会自然地强调"乐队"、"专辑"和"歌曲"这些与缺失信息最相关的词语。
通过语音风格自适应,Alexa将开始以同样的方式改变韵律模式,以适应对话上下文。同样,她也会改变语气:在某些情境下,愉快、活泼的语气可能很合适,但如果Alexa刚刚未能成功完成请求,这种语气可能会令人烦恼。
此图描绘了我们模型从具有不同韵律特征的数据集中提取的语音样本表示。相同颜色的点代表来自同一数据集的样本。同类颜色的点聚集在一起表明我们的模型准确捕捉了韵律信息。根据上下文,语音生成器选择此空间中的一个点来定义生成语音的韵律。
实现语音风格自适应的模型之一是以上下文感知的方式生成替代措辞,这样Alexa就不会反复问同样的问题。在一轮对话中,她可能会说:“你是指歌曲吗?”;在另一轮中,她可能会说:"那我应该播放歌曲吗?"等等。
因此,语音风格自适应代表了向概念到语音迈进的一步,这是文本到语音的预期后继者,它以概念的高级表示为输入,并根据上下文和其他信号在如何传达概念方面具有相当大的自由度。例如,有时相同的概念内容可以通过语气、明确的语言表达或两者来传达。
语音风格自适应依赖于对话管理器的状态信息。该信息包括客户的意图和槽值。它还包括当前的对话状态以及对话管理器当前对对话状态理解的置信度。
首先,状态信息传递到语音生成器的重新表述模块,这是一个基于Transformer的神经网络,在大型领域特定语言语料库上训练。根据状态信息,模型生成替代措辞列表。
然后,重新表述传递给另一个神经网络,该网络经过训练以识别每个句子中的"焦点词",这些词是在语音中特别强调的良好候选词。
焦点词模型的样本输出,为不同的输入词分配不同的权重。
对话状态信息、重新表述模块提出的重新表述以及焦点词模型的输出都传递给另一个神经网络,生成输出语音。焦点词信息与槽信息一起告诉发音器要强调输入句子的哪些词。来自对话管理器的置信度分数决定了语音风格,在从低到高兴奋的范围内。
然而,这仍然是第一天,我们正在试验利用其他上下文信息来进一步定制Alexa的响应。
研究领域
对话AI
标签
Alexa、文本转语音
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)
1180

被折叠的 条评论
为什么被折叠?



