深度神经网络在鲁棒自动语音识别中的自适应技术
1. 多属性感知训练
在语音识别中,为了让深度神经网络(DNN)更好地处理不同环境和说话人的语音,多属性感知训练是一种有效的方法。
- 特征增强 :可以提取房间相关代码作为恒定增强的辅助特征,输入到 DNN 中进行房间感知训练。还可以使用基于神经网络的因子提取器来表示房间信息,如距离判别 DNN 或干净特征预测 DNN 提取的瓶颈特征,在混响场景中表现出了不错的改进效果。
- 多属性 i - 向量 :可以估计两种类型的 i - 向量,分别用于表示说话人和噪声条件。对于每个语音片段,将对应的说话人和噪声 i - 向量附加到标准声学特征上。有研究提出了因式分解 i - 向量,通过施加正交约束来联合学习说话人和噪声 i - 向量,确保两者子空间独立,比分别训练后附加的简单情况性能更好。
- 瓶颈 DNN 联合提取 :Kundu 等人研究使用瓶颈 DNN 联合提取一个编码多个属性(说话人、噪声和音素)的单一瓶颈向量。该网络可以使用多任务学习(MTL)或联合任务学习(JTL)方法进行训练。
- MTL :单个 DNN 训练以预测多个属性的类别,输出目标是所有属性类别的简单拼接。
- JTL :DNN 训练以预测多个属性类别的交叉积。
- 实验表明,MTL 和 JTL 性能相似,但 JTL 中交叉积空间的类别数量会随属性数量和每个属性的类别数量急剧增加。总体上,MTL 和 JTL 得到的瓶颈向量比传统单任务学习(STL)的性能更好。
深度神经网络语音识别自适应技术
超级会员免费看
订阅专栏 解锁全文
36万+

被折叠的 条评论
为什么被折叠?



