转载请注明出处: http://blog.youkuaiyun.com/zhubin215130/article/details/8938098
MPEG-2音频压缩充分利用了人耳的限制,在更嘈杂的背景音中难以听出相似的目标声音。有两种类型的掩蔽:听觉掩蔽和时域掩蔽。
- 听觉掩蔽
听觉掩蔽发生在两个相似频率声音同时出现的时候,如果一个声音比另一个的音量更大,它将完全淹没另一个声音。比如说,当你想在火车站小声谈话的时候,听觉掩蔽就发生了,穿行而过的火车会完全淹没掉你的声音。当火车的声音出现后,较为轻微的声音将无法被感知到。
两个信号在频率上越接近,就越容易发生听觉掩蔽,尽管可能其中一个声音的音量只是稍微大那么一点点。比如说,如果两个小号发出非常近似的高频声,音量较弱一点的小号将无法被听到。但是,如果换成是一个低音鼓用相同分贝演奏,弱音量的小号则很容易被听见,因为两者的声音频率有显著的不同。由于人耳的灵敏度依赖于频率,因此掩蔽效果也就依赖于频率。相比高频音而言,低频音之间需要离得更近才能被掩蔽,一般来说,弱纯音离强纯音越近(频率相近)就越容易被掩蔽。
- 时域掩蔽
当一个高分贝的声音出现后,它将淹没掉紧跟其之前或之后的低分贝的声音,这种现象称之为时域掩蔽。通常时域掩蔽的时间范围是在高分贝声音之前或之后的几毫秒,火车汽笛的轰鸣很容易掩蔽掉紧跟其后的微弱的哔哔声。
为了充分利用这些听觉特性,音频压缩算法将音频频谱划分成许多次频带(sub-band)。每个次频带的动态范围会单独的缩减,因此动态范围压缩的效果就不是很显著。这意味着可能每个采样只有2-4bit,而不是每个次频带中的音频采样都是16bit。次频带中也使用度量常数,每个次频带的bit分配也是独立开的,因此重要的频段区间具有更高的权重。次频带的大小会根据频率的不同而不同,以适应人耳的频率掩蔽。