1、音频信号压缩的可能性
(1)去除声音信号中的“ 冗余 ” 部分
时域信息冗余度主要表现在幅度非均匀分布,即不同幅度的样值出现的概率不同,小幅度的样值比大幅度样值出现的概率高。
频域:功率谱的高频成分能量较低。
(2)是利用人耳的听觉特性 ,将声音中与听觉无关的“ 不相关 ”部分去除。对于人耳感觉不到的不相关部分不编码、不传送,以达到数据压缩的目的。——利用了人耳听觉的 心理声学特性
2、音频信号的压缩编码方法
(1)波形编码:PCM, DPCM, ADPCM
(2)参数编译码器:从语音波形信号中提取语音生成模型的参数,使用这些参数通过语音生成模型重构出语音。
(3)混合编码
(4)感知编码
3、音频压缩的国际标准
(1)MPEG-1 ISO/IEC—11172-3 1993年标准化
(2)MPEG-2 ISO/IEC—13818-3 1994年11月标准化,是对MPEG1的发展与扩展
(3)ISO/IEC MPEG-2 AAC (ISO/IEC 13818-7 ) 1997年4月公布
4、MPEG心理声学模型
心理声学模型可以在主观听感劣化不多的条件下,大大降低数字音频信号传输的带宽。它主要基于人的听觉器官的生理结构和感知模式,通过对数字音频信号的相应处理,去除不可闻的信号成分。
(1)将样本变换到频域:Hann加权减少频域中的边界效应
此变换不同于多相滤波器组,因为模型需要更精细的频率分辨率,而且计算掩蔽阈值也需要每个频率的幅值
模型1:采用512 (Layer I) 或1024 (Layers II and III)样本窗口
Layer I:每帧384个样本点,512个样本点足够覆盖
Layer II 和Layer III:每帧1152个样本点,每帧两次计算,模型1选择两个信号掩蔽比(SMR)中较小的一个