语音特征的量化:源编码
1 引言
随着个人数字助理(PDA)和手机等无线设备的普及,人们越来越关注将自动语音识别(ASR)技术集成到移动通信系统中。语音识别可以帮助消费者更方便地执行传统上通过按钮和/或指点设备完成的常见任务。分布式语音识别(DSR)是一种基于客户端-服务器的自动语音识别(ASR)模式,在该模式中,语音特征是在客户端设备上提取的,然后传输到服务器进行识别任务。为了实现这一目标,必须有效地压缩和传输语音特征,以保持语音识别的高性能。
本文将描述一系列用于分布式语音识别的MFCC(梅尔频率倒谱系数)特征向量编码的量化方案。这些方案包括标量量化器、向量量化器、感知加权向量量化器以及基于GMM的块量化器。这些量化方案在编码文献中已有详细描述,但它们在量化MFCC特征向量方面的应用相对较新。需要注意的是,在分布式语音识别(DSR)中,优化的目标测量指标是识别准确率,而不是均方误差。因此,DSR中的量化值得进一步研究。
2 量化理论简介
源编码方案可以大致分为两类:无损编码和有损编码。无损编码不会造成信息损失(即解码后的输出数据与输入数据完全相同),但压缩量受到数据的香农熵的限制。无损编码方案的例子(通常称为entropy coders)包括霍夫曼编码、算术编码和游程长度编码。
在有损编码器的输出上级联熵编码器以进一步降低比特率是很常见的做法。JPEG图像编码器就是一个例子,在这里,有损标量量化阶段的输出系数使用游程编码器和霍夫曼编码器进行编码。有损编码方案在低容量和有限的信道环境中更为有用,因为它们对压缩量没有限制。有损编码方案的比特率可以固定,从而消除了缓冲区的需求。有损编码方案的挑战是在给定的比特率下最小化失真,或在允许的固定
超级会员免费看
订阅专栏 解锁全文
2707

被折叠的 条评论
为什么被折叠?



