音频压缩编码技术（一）—有损压缩

赵新政

于 2021-06-06 14:09:18 发布

阅读量1.7k

点赞数

分类专栏：音视频处理文章标签： ffmpeg 音频编码解码

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/weixin_50523841/article/details/117625897

版权

音视频处理专栏收录该内容

11 篇文章

订阅专栏

本文探讨了音频压缩的重点，包括消除冗余信息和利用遮蔽效应。通过傅里叶变换处理时域信息，过滤掉人耳不敏感的频率范围和被遮蔽的音频信号。静音门槛和遮罩门槛策略用于决定哪些音频可以被安全地去除，以实现无损压缩的目标。音频压缩旨在在不失真的前提下，最大程度地压缩文件。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

有损：压缩之后无法还原，即为有损；保证不失真情况下尽可能压缩

1 音频压缩关注点：

1.1 消除冗余信息，比如20hz-20000hz之间，才是人敏感区域，其他音频需要过滤掉。
1.2 冗余信息定义：人听觉范围之外，以及遮蔽信息的剔除

2 音频压缩剪裁与屏蔽：

2.1 频域遮蔽：
在这里插入图片描述
环境音+各类人声音，如何凸显有用信息，遮蔽无效信息呢？
利用傅里叶变换等，将时域信息转化为频域信息，众多的波形之中，留下来需要的波形即可，比如上图：0.02khz-20khz

a. 声音强度的静音门槛，本条曲线意味着根据不同的频率，最少到达所少dB的声音强度，人类才能听到，本强度之下的声音都可以消除掉。
b. 遮罩门槛，是指在某个频域范围内，找到最大dB的音源，做一个钟形曲线，在曲线之上的才能被留下，其他的就干掉，因为这些频率距离最高分贝者太近了，所以才会被遮蔽。

感性理解：频率很低或者很高，都需要较大的声音人耳才能识别，中间的频段就可以声音没这么大，这也就解释了静音门槛；相似接近的频率者在一起，就需要互相之间对比，才能知道凸显哪一个。

2.2 时域遮蔽：
在这里插入图片描述
距离最大声音越近，不管前后，都会被屏蔽曲线屏蔽掉，因为你离我最大声音太近了，所以会按照曲线来被屏蔽

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

赵新政 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。