45、深度学习网络声学挑战与解决方案

最新推荐文章于 2025-11-24 23:34:07 发布

躺平摸鱼王

最新推荐文章于 2025-11-24 23:34:07 发布

阅读量8

点赞数

CC 4.0 BY-SA版权

分类专栏：深度学习重塑语音识别文章标签：深度学习网络声学说话人自适应

本文链接：https://blog.youkuaiyun.com/k8s6orchestrator/article/details/155061570

深度学习重塑语音识别专栏收录该内容

47 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

深度学习网络声学挑战与解决方案

在深度学习网络声学领域，面临着诸多挑战，如大规模部署时说话人个性化的高存储成本等。为解决这些问题，下面将详细介绍一系列有效的深度学习模型技术。

1. 降低运行时成本

为了降低运行时成本，提出了基于奇异值分解（SVD）的模型重构方法。该方法可将原始的全秩深度神经网络（DNN）模型转换为更小的低秩DNN模型，且不损失准确性。
具体来说，DNN中的一个$m \times n$权重矩阵$A$可以近似表示为两个低秩矩阵的乘积：
$A_{m\times n} \approx U_{m\times k}N_{k\times n}$
如果$A_{m\times n}$是低秩矩阵，$k$将远小于$n$，因此矩阵$U_{m\times k}$和$N_{k\times n}$的参数数量将远小于矩阵$A_{m\times n}$。将此分解应用于DNN模型，相当于在原始层之间添加一个具有较少单元的线性瓶颈层。若参数数量减少过多，可使用基于随机梯度下降的微调来恢复准确性。通过这种基于SVD的模型重构方法，可将模型大小和运行时CPU成本降低75%，且不损失任何准确性。目前，基于SVD的DNN建模已应用于所有相关语音识别（SR）产品中。

2. 少量参数下的说话人自适应

说话人自适应旨在对说话人无关（SI）的自动语音识别（ASR）组件（如声学模型（AM））进行说话人相关的个性化处理。通常，SI模型在大型数据集上进行训练，以对所有说话人达到最佳效果。但平均效果虽好，却忽略了不同口音、语音内容、说话速率等因素。个性化方法可使SI模型针对目标说话人达到最佳性能。
在为数百万说话人进行生产场景下的AM自适应时，通常只有有限的自

会员秒杀 ¥9.9 重磅福利

超级会员免费看