具有多混合成分的轨迹混合密度网络用于声学 - 发音逆映射
1. 引言
主流语音技术,如自动语音识别和拼接式语音合成,主要聚焦于声学语音信号。这是很自然的,因为声学领域是语音信号在人与人之间传输的存在形式,而且我们可以方便地测量和处理语音的声学表示。然而,语音的发音表示具有一些吸引人的特性,可在建模中加以利用。语音发音器官的运动相对缓慢、平滑且连续,嘴巴不能从一个位置“跳跃”到另一个位置。利用语音产生系统的知识,通过提供有用的约束条件,可以改进语音处理方法。因此,在语音处理中利用发音信息和表示的兴趣日益增长,有许多应用被提出,例如低比特率语音编码、语音分析与合成、自动语音识别、动画说话头等。
为了使发音方法具有实用性,我们需要方便地获取发音表示。最近将发音纳入语音技术的工作使用了X射线微束摄影和电磁发音仪(EMA)提供的数据。这些方法,尤其是后者,使我们现在能够收集相当大量的发音数据。然而,它们仍然是侵入性技术,需要庞大且昂贵的实验设备。因此,人们对开发一种从声学语音信号中恢复发音表示的方法很感兴趣。也就是说,对于给定的声学语音信号,我们的目标是估计产生它的底层发音配置序列,这被称为声学 - 发音逆映射。
逆映射问题已经研究了几十年。一种方法是基于语音产生的数学模型来分析声学信号。另一种流行的方法是使用发音合成模型,要么作为分析 - 合成算法的一部分,要么生成声学 - 发音语料库,用于码本映射或训练其他模型。最近报道的许多工作都将机器学习模型应用于人工测量的发音数据,包括人工神经网络(ANNs)、码本方法和高斯混合模型(GMMs)。
逆映射被广泛认为是困难的,因为它可能是一个不适定问题。有多个证据表明发音到声学的映射是多对一的,这意味着该映射的瞬时逆映射会导致一
超级会员免费看
订阅专栏 解锁全文
413

被折叠的 条评论
为什么被折叠?



