为了把一个模拟波形(例如语音)数字化,首先我们必须有计划地在波形上取许多样本,然后用一些比特去代表每一个样本。
图1是一个对一个简单的正弦波抽样的例子,这个例子也给出了抽样后的样本的形状。显然,要使这些样本能够在各个方面完全重现原来的信号就必须取无数的样本。当然,这是不可能的,而且也不是我们所希望的。相反,我们只需要足够的样本,这样我们可以使用这些样本的样值和合适的数学方法来重建原始信号(或至少能接近原始信号)。这就需要用到奈奎斯特定理。这个定理的基本意思是:如果以一个信号最大频率的两倍的进行抽样,则这个信号就可以被重建。因此,若一个信号的最大频率是4000Hz,那么我们每秒至少要取8000个样本。
图1 波形抽样
1、量化
我们以8000Hz的频率来进行抽样。下一步就是如何来表示每一个样本。换句话说,就是要用多少的比特来代表一个样本。这就是量化噪音。
当我们进行抽样时,我们用有限的比特来表示一个样本的值。通过使用有限的比特来表示一个样本,我们就量化了这个信号。例如,我们用3个比特来代表不同的信号级别,这样只能表示8个级别。如果抽样时碰到模拟信号的样值是5.3,则这个模拟信号数字化后的值就是5.当我们把这个数字传送到远程终端,被恢复出来的样值只能是5,真实信号的大小永远无法恢复。输入的模拟信号的原始样值的大小和数字化表示后的样值的大小之间的区别就被称为是量化噪音。
减少量化噪音最简单的方法是使用更多的比特,以此来提供更好的粒度。然后这种增加比特数的方法又与我们减少带宽的初衷相背。我们希望样本更精确,我们就要使用更多的比特来来表示每一个样本,也就意味着要使用更多的带宽。或者,我们用相对较少的比特,用更复杂的方式来利用它们。
如果我们对一定范围内的话音信号等级进行量化,而且采用间隔相等的量化等级,则会产生两个效果:
第一,我们需要用许多比特来代表每一个样本;
第二,大声交谈比低声交谈听起来效果更好。这是因为量化噪音对高音的影响比对低音的影响小。例如可以将一个样值为11.2的样本数字化为11(比原信号低了1.8%),而将一个样值为2.2的样本数字化为2(比原信号低了9%)。显然,前者产生的有害影响要远比后者小。更为正式的说法是,大声交谈的信噪比要比低声交谈的信噪比高得多。
因此,我们使用不等间隔的量化等级。在此过程中,对于较小的信号给以小的量化台阶,对于较大的信号给打的量化台阶。则对于低幅信号,量化的粒度更好,对高幅信号,量化的粒度稍微差一些。与等间隔量化相比较,这样做的目的是为了在不同幅度的信号之间均衡信噪比,同事还可以减少量化所用比特。若只是简单地把量化等级从编码器的一端传送到另一端,那么这一过程所需要的带宽比等间隔量化所用的要少。
2、话音编码器的种类
一共存在三种型号编码器:波形编解码器、源编解码器(又称为声码器)和混合编解码器。
波形编解码器基本上是将输入的模拟信号抽样编码而不考虑信号是如何产生的。然后,它将量化后的样值传送到终端,在终端原始信号被重组到与原信号大致相近的程度。大体上说,波形编解码器提供了一种高质量的输出,而且不是很复杂。它最大的缺点是同其他的编解码器相比,它要使用大量的带宽。当波形编解码器用于低带宽时,话音质量下降的非常快。
源编解码试图使输入信号符合话音产生的数学模型。他们通常使用声道的线性预测过滤模型,用一个清/浊音标志来代表使用与过滤器的激发信号。换句话说,过滤器代表了声道,而清/浊音标志代表了从声带接受的是一个清音还是一个浊音。被传送到远程终端的信息是一组参数模型,而不是信号标志本身。使用相同模型技术的远程终端接收收到的信号并重组模拟信号。
声码器以低比特速率运行但是试图形成合成的话音。使用较高比特速率并不能提供任何帮助,这主要是由于潜在模型的限制。声码器通常用于私人通信系统,特别是用于军事领域,一般不用于公共网络。
混合编解码器意在提供世界上最好的话音质量。当他们试图在某种程度上进行波形匹配,他们也首先利用人们发声的知识。他们试图以低比特速率提供比波形编解码器更好的话音质量。下图显示了三种编解码器在带宽与质量的关系上的比较。