45、深度学习网络声学挑战与解决方案

深度学习网络声学挑战与解决方案

在深度学习网络声学领域,面临着诸多挑战,如大规模部署时说话人个性化的高存储成本等。为解决这些问题,下面将详细介绍一系列有效的深度学习模型技术。

1. 降低运行时成本

为了降低运行时成本,提出了基于奇异值分解(SVD)的模型重构方法。该方法可将原始的全秩深度神经网络(DNN)模型转换为更小的低秩DNN模型,且不损失准确性。
具体来说,DNN中的一个$m \times n$权重矩阵$A$可以近似表示为两个低秩矩阵的乘积:
$A_{m\times n} \approx U_{m\times k}N_{k\times n}$
如果$A_{m\times n}$是低秩矩阵,$k$将远小于$n$,因此矩阵$U_{m\times k}$和$N_{k\times n}$的参数数量将远小于矩阵$A_{m\times n}$。将此分解应用于DNN模型,相当于在原始层之间添加一个具有较少单元的线性瓶颈层。若参数数量减少过多,可使用基于随机梯度下降的微调来恢复准确性。通过这种基于SVD的模型重构方法,可将模型大小和运行时CPU成本降低75%,且不损失任何准确性。目前,基于SVD的DNN建模已应用于所有相关语音识别(SR)产品中。

2. 少量参数下的说话人自适应

说话人自适应旨在对说话人无关(SI)的自动语音识别(ASR)组件(如声学模型(AM))进行说话人相关的个性化处理。通常,SI模型在大型数据集上进行训练,以对所有说话人达到最佳效果。但平均效果虽好,却忽略了不同口音、语音内容、说话速率等因素。个性化方法可使SI模型针对目标说话人达到最佳性能。
在为数百万说话人进行生产场景下的AM自适应时,通常只有有限的自

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值