深度学习网络声学挑战与解决方案
在深度学习网络声学领域,存在着诸多挑战,例如大规模部署时说话人个性化的巨大存储成本等。下面将介绍一系列有效的解决方案。
1. 降低运行成本的SVD训练方法
为了降低运行成本,提出了基于奇异值分解(SVD)的模型重构方法。该方法能将原始的满秩深度神经网络(DNN)模型转换为更小的低秩DNN模型,且不损失准确性。
在DNN中,一个 $m \times n$ 的权重矩阵 $A$ 可以近似表示为两个低秩矩阵的乘积:
$A_{m\times n} \approx U_{m\times k}N_{k\times n}$ (19.1)
如果 $A_{m\times n}$ 是低秩矩阵,$k$ 将远小于 $n$,因此矩阵 $U_{m\times k}$ 和 $N_{k\times n}$ 的参数数量远小于矩阵 $A_{m\times n}$。将这种分解应用于DNN模型,相当于在原始层之间添加一个具有较少单元的线性瓶颈层。如果参数数量减少过多,可以使用基于随机梯度下降的微调来恢复准确性。通过这种基于SVD的模型重构方法,可以在不损失任何准确性的情况下,将模型大小和运行时CPU成本降低75%。目前,基于SVD的DNN建模已应用于所有微软的语音识别(SR)产品中。
2. 少量参数的说话人自适应方法
说话人自适应旨在对说话人无关(SI)的自动语音识别(ASR)组件(如声学模型(AM))进行说话人相关的个性化处理。SI模型通常在大型数据集上进行训练,以对所有说话人达到最佳效果,但在处理不同口音、语音内容、说话速率等方面仍有提升空间。在针对数百万说话人的生产场景中,主要关注AM自适应,由于适应数据有限且
超级会员免费看
订阅专栏 解锁全文
6349

被折叠的 条评论
为什么被折叠?



