MPEG-2 数字视频技术参考指南 (4)—— MPEG-2音频压缩

本文介绍了MPEG-2音频压缩技术中的两种关键掩蔽效应:听觉掩蔽与时域掩蔽,并解释了如何利用这些特性进行音频压缩。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

转载请注明出处: http://blog.youkuaiyun.com/zhubin215130/article/details/8938098

        MPEG-2音频压缩充分利用了人耳的限制,在更嘈杂的背景音中难以听出相似的目标声音。有两种类型的掩蔽:听觉掩蔽和时域掩蔽。


  • 听觉掩蔽


        听觉掩蔽发生在两个相似频率声音同时出现的时候,如果一个声音比另一个的音量更大,它将完全淹没另一个声音。比如说,当你想在火车站小声谈话的时候,听觉掩蔽就发生了,穿行而过的火车会完全淹没掉你的声音。当火车的声音出现后,较为轻微的声音将无法被感知到。


        两个信号在频率上越接近,就越容易发生听觉掩蔽,尽管可能其中一个声音的音量只是稍微大那么一点点。比如说,如果两个小号发出非常近似的高频声,音量较弱一点的小号将无法被听到。但是,如果换成是一个低音鼓用相同分贝演奏,弱音量的小号则很容易被听见,因为两者的声音频率有显著的不同。由于人耳的灵敏度依赖于频率,因此掩蔽效果也就依赖于频率。相比高频音而言,低频音之间需要离得更近才能被掩蔽,一般来说,弱纯音离强纯音越近(频率相近)就越容易被掩蔽。


  • 时域掩蔽


        当一个高分贝的声音出现后,它将淹没掉紧跟其之前或之后的低分贝的声音,这种现象称之为时域掩蔽。通常时域掩蔽的时间范围是在高分贝声音之前或之后的几毫秒,火车汽笛的轰鸣很容易掩蔽掉紧跟其后的微弱的哔哔声。


        为了充分利用这些听觉特性,音频压缩算法将音频频谱划分成许多次频带(sub-band)。每个次频带的动态范围会单独的缩减,因此动态范围压缩的效果就不是很显著。这意味着可能每个采样只有2-4bit,而不是每个次频带中的音频采样都是16bit。次频带中也使用度量常数,每个次频带的bit分配也是独立开的,因此重要的频段区间具有更高的权重。次频带的大小会根据频率的不同而不同,以适应人耳的频率掩蔽。

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值