45、深度学习网络声学挑战与解决方案

最新推荐文章于 2025-12-13 00:08:52 发布

异步汪仔

最新推荐文章于 2025-12-13 00:08:52 发布

阅读量18

点赞数

CC 4.0 BY-SA版权

分类专栏：深度学习重塑语音识别文章标签：深度学习网络声学 SVD训练

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/d3e4f/article/details/154643793

深度学习重塑语音识别专栏收录该内容

47 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

深度学习网络声学挑战与解决方案

在深度学习网络声学领域，存在着诸多挑战，例如大规模部署时说话人个性化的巨大存储成本等。下面将介绍一系列有效的解决方案。

1. 降低运行成本的SVD训练方法

为了降低运行成本，提出了基于奇异值分解（SVD）的模型重构方法。该方法能将原始的满秩深度神经网络（DNN）模型转换为更小的低秩DNN模型，且不损失准确性。

在DNN中，一个 $m \times n$ 的权重矩阵 $A$ 可以近似表示为两个低秩矩阵的乘积：
$A_{m\times n} \approx U_{m\times k}N_{k\times n}$ (19.1)

如果 $A_{m\times n}$ 是低秩矩阵，$k$ 将远小于 $n$，因此矩阵 $U_{m\times k}$ 和 $N_{k\times n}$ 的参数数量远小于矩阵 $A_{m\times n}$。将这种分解应用于DNN模型，相当于在原始层之间添加一个具有较少单元的线性瓶颈层。如果参数数量减少过多，可以使用基于随机梯度下降的微调来恢复准确性。通过这种基于SVD的模型重构方法，可以在不损失任何准确性的情况下，将模型大小和运行时CPU成本降低75%。目前，基于SVD的DNN建模已应用于所有微软的语音识别（SR）产品中。

2. 少量参数的说话人自适应方法

说话人自适应旨在对说话人无关（SI）的自动语音识别（ASR）组件（如声学模型（AM））进行说话人相关的个性化处理。SI模型通常在大型数据集上进行训练，以对所有说话人达到最佳效果，但在处理不同口音、语音内容、说话速率等方面仍有提升空间。在针对数百万说话人的生产场景中，主要关注AM自适应，由于适应数据有限且

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符 | 博主筛选后可见

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。