预测编码技术详解
1. 预测解码基础
预测解码的核心在于确保编码器和解码器中的预测器能产生相同的预测值 $\hat{x}(n)$,否则两者会出现偏差。预测解码器的结构如图 3.2 所示,预测器可通过重建获取过去的样本。
2. 均方误差解决方案
为了得到合适的预测器,我们先做出模型假设:音频信号类似于由随机噪声发生器后接无限脉冲响应(IIR)滤波器组成的生成系统的输出,其传递函数在 z 域有未知数量的极点。这个假设在一定程度上是合理的,例如对于长笛或小号,其吹口处的输入近似噪声信号,而其管体结构及内部的来回反射可用 IIR 滤波器建模;对于清音语音,声道可视为具有反射的管状结构,输入为类似噪声的激励信号;对于浊音语音,输入则是周期性脉冲。
基于这个信号模型,我们可以用一个在传递函数 z 域零点位置与生成系统极点位置相同的滤波器来抵消这些极点。这样一来,预测误差滤波器就成了有限脉冲响应(FIR)滤波器。经过这个 FIR 滤波器后,剩下的应该就是激励噪声(对于浊音语音则是周期性脉冲)。理想情况下,得到的噪声是不可预测的,预测工作就完成了。
预测误差是真实样本与预测样本的差值,所以预测器也必须是 FIR 滤波器。但我们不知道预测误差滤波器传递函数的零点位置,不过我们知道完美的预测器能在某种意义上最小化预测误差 $e(n)$。为了应用已知的数学工具,我们选择均方预测误差(MSE)作为优化准则,其定义为 $E(e^2(n))$,其中 $E(.)$ 表示期望,在这里就是所有样本的平均值。
假设 FIR 预测器滤波器 $h(n)$ 有 $L$ 个系数,预测器的输出通过过去 $L$ 个音频样本与预测器滤波器冲激响应的卷积计算得出: <
超级会员免费看
订阅专栏 解锁全文
3654

被折叠的 条评论
为什么被折叠?



