提升韩语智能个人助理中DNN声学模型训练速度:多GPU与分布式计算的应用
1. 语音识别与智能个人助理
语音接口在人机交互中扮演着至关重要的角色。如今,像iOS系统中的Siri和安卓系统中的Google Now这类智能个人助理,借助语音接口为用户提供了免提、免视的网络搜索和餐厅预订等服务。随着自动语音识别(ASR)性能的提升,语音接口变得越来越受欢迎,而这主要得益于ASR模型的自动再训练。
ASR系统的目标是将语音信息转换为文字符号。它通过声学向量序列X来计算最可能的单词序列W,其依据的是贝叶斯定理:
[ \hat{W} = \text{argmax}_w P\left( W \middle| X \right) = \text{argmax}_w \frac{P(W)P\left( X \middle| W \right)}{P(X)} \approx \text{argmax}_w P(W)P\left( X \middle| W \right) ]
其中,$P(X)$ 是声学向量序列X的概率,由于它与W无关,可忽略不计。$P(W)$ 由语言模型(LM)计算得出,LM为单词符号序列分配概率,能根据已有单词预测下一个单词。$P(X|W)$ 是声学模型(AM)针对W计算的条件概率,AM通过声学属性对语音单元(如单词或音节)进行建模。在构建ASR系统的AM和LM之前,需要选择一组基于语料库领域的单词,这组单词被称为ASR系统的词汇表。然后,ASR系统的解码器会搜索使$P(W)$ 和$P(X|W)$ 乘积最大的单词序列$\hat{W}$。
目前,大多数ASR系统在生成AM时仍使用隐马尔可夫模型(HMM)。常见的有高斯混合模型/隐马尔可夫模型(GMM/HMM)系统和
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



