27、提升韩语智能个人助理中DNN声学模型训练速度:多GPU与分布式计算的应用

提升韩语智能个人助理中DNN声学模型训练速度:多GPU与分布式计算的应用

1. 语音识别与智能个人助理

语音接口在人机交互中扮演着至关重要的角色。如今,像iOS系统中的Siri和安卓系统中的Google Now这类智能个人助理,借助语音接口为用户提供了免提、免视的网络搜索和餐厅预订等服务。随着自动语音识别(ASR)性能的提升,语音接口变得越来越受欢迎,而这主要得益于ASR模型的自动再训练。

ASR系统的目标是将语音信息转换为文字符号。它通过声学向量序列X来计算最可能的单词序列W,其依据的是贝叶斯定理:
[ \hat{W} = \text{argmax}_w P\left( W \middle| X \right) = \text{argmax}_w \frac{P(W)P\left( X \middle| W \right)}{P(X)} \approx \text{argmax}_w P(W)P\left( X \middle| W \right) ]
其中,$P(X)$ 是声学向量序列X的概率,由于它与W无关,可忽略不计。$P(W)$ 由语言模型(LM)计算得出,LM为单词符号序列分配概率,能根据已有单词预测下一个单词。$P(X|W)$ 是声学模型(AM)针对W计算的条件概率,AM通过声学属性对语音单元(如单词或音节)进行建模。在构建ASR系统的AM和LM之前,需要选择一组基于语料库领域的单词,这组单词被称为ASR系统的词汇表。然后,ASR系统的解码器会搜索使$P(W)$ 和$P(X|W)$ 乘积最大的单词序列$\hat{W}$。

目前,大多数ASR系统在生成AM时仍使用隐马尔可夫模型(HMM)。常见的有高斯混合模型/隐马尔可夫模型(GMM/HMM)系统和

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值