语音识别——解码器(WFST、Lattice)

本文详细探讨了语音识别中的动态解码器、WFST静态解码和Lattice技术,包括Viterbi算法、树形词典、剪枝优化、WFST的使用以及混合解码策略,旨在提升大词典下的解码效率和准确性。

       解码为给定声学观测序列O=\left \{ o_{1},o_{2},...,o_{T} \right \}的前提下,找到最有可能出现的词序列W=\left \{ w_{1},w_{2},...,w_{N} \right \},由贝叶斯得:

        W=argmax_{w}P\left ( W|O \right )=argmax_{w}P\left ( O|W \right )P\left ( W \right )

        解码的目的:从解码空间中找到一条或多条从初始状态到终止状态的最优路径。

        解码器是语音识别系统中的重要一环,主要解码方式有以下几种:

        1)动态解码器 (dynamic decoders):动态解码器使用广度优先搜索在原始的搜索网络中同时生成多条假设,并且依靠剪枝算法不会使网络变得太大。

        2)有限加权状态转换器 (weighted finte-state transducers ):加权有限状态转换器是使用有限状态自动机算法来表示和优化状态级网络结构,并用最短路径算法搜索得到的图结构。

        3)多通道搜索 (multi-pass search):最初使用词内二元语言模型。 可以使用一些简单的模型来生成多个假设;在第一遍获得的 N-best list 或词网格上使用更准确的词间模型重新评分假设。

基于Viterbi的原始动态解码器:

        基于Viterbi的原始动态解码器使用广度优先搜索在原始的搜索网络中同时生成多条假设,并且依靠剪枝算法不会使网络变得太大。

        动态解码网络仅仅把词典编译为状态网络,构成搜索空间。

        以一个四单词词典来举例,其词典包涵以下四个单词:

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值