分布式语音识别中的错误隐藏与不确定性解码
1 引言
分布式语音识别(Distributed Speech Recognition, DSR)系统依赖于从分布式客户端到集中式服务器的有效传输语音信息。DSR系统内的无线或网络通信通道通常是有噪声的和突发的。因此,DSR系统在传输语音信息时必须使用高效的错误恢复(Error Recovery, ER)方案。一些ER策略,被称为前向错误控制(Forward Error Correction, FEC),旨在创建源编码比特流中的冗余以克服通道错误的影响,而其他策略则设计用于在特征流中创建扩散或延迟,以克服突发通道错误的影响。此外,ER策略可以设计为前述技术的组合。
2 语音识别中的错误隐藏
2.1 错误隐藏的概念
错误隐藏(Error Concealment, EC)关注于通过利用源编码器输出比特流中的剩余冗余来减轻传输错误对信号接收者可能产生的不利影响。在DSR中,接收者是自动语音识别(Automatic Speech Recognition, ASR)解码器,与人类听者不同,它可以利用优化重构的传输数据以及关于重构可靠性的信息。因此,贝叶斯决策规则需要重新制定,以考虑被破坏或不可靠的特征向量序列。在某些假设下,这导致观察概率计算的修改,而基于维特比搜索的解码器结构保持不变。这种修改后的解码规则的性能关键在于给定所有接收到的损坏特征向量时,未损坏特征向量的后验概率密度估计的准确性。
2.2 特征受损情况下的语音识别
在存在受损特征的情况下如何进行语音识别是这一节讨论的重点。它介绍了传统的方法,即通过增强技术获得一个干净语音特征的点估计,并将其用于自动语音识别(ASR
超级会员免费看
订阅专栏 解锁全文
856

被折叠的 条评论
为什么被折叠?



