第八次作业——MPEG音频编码

最新推荐文章于 2024-09-24 14:00:17 发布

一点点晚风一

最新推荐文章于 2024-09-24 14:00:17 发布

阅读量667

点赞数

文章标签：大数据

本文链接：https://blog.youkuaiyun.com/m0_68377615/article/details/125542025

版权

MPEG介绍

MPEG标准主要有以下五个，MPEG-1、MPEG-2、MPEG-4、MPEG-7及MPEG-21等。该专家组建于1988年，专门负责为CD建立视频和音频标准，而成员都是视频、音频及系统领域的技术专家。及后，他们成功将声音和影像的记录脱离了传统的模拟方式，建立了ISO/IEC11172压缩编码标准，并制定出MPEG-格式，令视听传播方面进入了数字化时代。因此，大家现在泛指的MPEG-X版本，就是由ISO (InternationalOrganization for Standardization) 所制定而发布的视频、音频、数据的压缩标准。

MPEG-1声音的主要性能

输入为PCM信号，采样率为32、44.1或48kHz，输出为32kbps~384kbps

具有三个独立的压缩层次：layerⅠ（编码器最简单）、layerⅡ（编码器复杂度中等）、layerⅢ（编码器最复杂）

心理声学模型

心理声学模型用来计算信号中不可被听觉感知的部分

人耳听觉特性

人耳听觉系统大致等效于一个信号通过一组并联的不同中心频率的带通滤波器，中心频率与信号频率相同的滤波器具有最大响应，中心频率偏离信号频率较多的滤波器不会产生响应。在0Hz到20kHz频率范围内由25个重叠的带通滤波器组成滤波器组。

听觉系统中存在一个听觉阈值电平，低于这个电平的声音信号就听不到。

听觉阈值电平是自适应的，也就是说听觉阈值的大小随声音频率的改变而改变。
一个人能否听到这种声音取决于声音的频率以及声音的幅度是否高于这种频率下的听觉阈值
掩蔽效应：一个较弱的声音的听觉感受被另一个较强的声音影响的现象称为人耳的听觉掩蔽效应。掩蔽作用与信号频率和强度有关。掩蔽效应在一定频率范围内不随带宽增大而改变，直至超过某个频率值。

如果有多个频率成分的复杂信号存在，那么频谱的总掩蔽阈值与频率的关系取决于各掩蔽音的强度、频率和它们之间的距离。

临界频带

临界频带是指当某个纯音被以它为中心频率，且具有一定带宽的连续噪声所掩蔽时，如果该纯音刚好被听到时的功率等于这一频带内的噪声功率，这个带宽为临界频带宽度
通常认为从20Hz到16kHz有25个临界频带，单位为bark，1bark=一个临界频带的宽度

掩蔽值

掩蔽音与被掩蔽音的组合方式有四种，即它们分别可以是乐音信号或窄带噪声。
音乐与语音信号大都由一系列复杂的频谱分量构成，相应的这些多个掩蔽分量也会相互影响并最终获得一个整体的掩蔽阈值。
多个掩蔽音同时存在时的综合掩蔽效果可以理解为每个掩蔽音的掩蔽效果先独立变化然后再线性相加
- 当两个信号重叠并落在一个临界频带中时，二者的掩蔽分量可以线性相加
- 对于复杂音频信号，可以将其频谱分割成一系列离散段，每段就是一个掩蔽信号，各掩蔽音互不重叠，即以一个临界带为单位。各掩蔽音的声压级则通过将对应的临界频带上的短时功率谱密度线性相加得到。
将输入信号变换到频域，再将结果分解成一些尽量与临界频带尽可能相似的子带，然后对每个子带进行量化，量化方式应当使得量化噪声听不见

心理声学模型Ⅰ

该模型的计算复杂度低，但对假设用户听不到的部分压缩太严重。

实际实现的模型复杂度取决于所需要的压缩因子，如大的压缩因子不重要，则可以不用心理声学模型，此时位分配算法不使用SMR而使用SNR

1.将样本变换到域

32个等分的子带信号并不能精确地反映人耳的听觉特性，因此引入FFT补偿频率分辨率不足的问题。layer1每帧有384个样本点，因此采用512点的样本窗口；layer2和layer3每帧有1152个样本点，采用1024点的样本窗口，每帧两次计算，选择两个信掩比（SMR）中较小的一个

2.确定声压级别

3.考虑安静时阈值

即绝对阈值，在标准中有根据输入PCM信号的采样率编制的“频率、临界频带率和绝对阈值”表

4.将音频信号分解为“乐音”和“非乐音/噪声”部分，因为这两种信号的掩蔽能力不同

根据音频频谱的局部功率最大值确定乐音成分，局部峰值为乐音，之后将本临界频带内的剩余频谱合在一起，组成一个代表噪声频率

5.音调和非音调掩蔽成分的消除
利用标准中给出的绝对阈值消除被掩蔽成分，考虑在每个临界频带内，小于0.5bark的距离中只保留最高功率的成分

6.单个掩蔽阈值的计算
音调成分和非音调成分单个掩蔽阈值根据标准中的算法求得

7.全局掩蔽阈值的计算

还要考虑其他临界频带的影响，因为一个掩蔽信号会对其他频带上的信号产生掩蔽效应，称为掩蔽扩散

8.每个子带的掩蔽阈值

选择出本子带中最小的阈值作为子带阈值

9.计算每个子带信号掩蔽比SMR

SMR=信号能量/掩蔽阈值
将SMR传递给编码单元

MPEG-1 编码原理

原理框架

基本思想

分析信号，去掉不能被感知的部分

整体框架

输入声音信号经过一个多相滤波器组，变换到多个子带。同时，经过“心理声学模型”计算以频率为自变量的噪声掩蔽阈值、量化和编码部分用信掩比SMR决定分配给子带信号的量化位数，使量化噪声<掩蔽阈值。最后通过数据帧包装将量化的子带样本和其他数据按照规定的帧格式组装成比特数据流

两条线

MPEG音频压缩编码框架主体分为两条线，一条是红框中的内容，一条是蓝框中的内容

红框部分：PCM码流经多相滤波器组变换为32个子带的频域信号，在实际中可以理解为每32个样点做一次子带分解，连续做12次，此时得到的每个子带中都有12个样点，这样的过程再连续做3次，所以最终每个子带上会有12 × 3 = 36 12\times 3=3612×3=36个样本点。之后利用第二条线的结果对数据进行量化。

蓝框部分：对PCM信号进行FFT，输入到心理声学模型中，同时，红框中子带分解后，根据各个子带的样本点计算提取相应子带的比例因子，也将其输入到心理声学模型中，由心理声学模型计算以频率为自变量的噪声掩蔽阈值，通过信号掩蔽比SMR确定比例因子选择信息，另外，与目标码率结合确定动态比特分配，决定给子带分配多少量化比特数。

将量化后的子带样本和边信息编码数据以及辅助数据按照规定的帧格式组装成帧比特流输出。

时-频分析的矛盾

之所以要分成上下两条线进行压缩编码，是因为时-频之间存在矛盾。

对于傅里叶变换过程中，窗的长度决定频谱图的时间分辨率和频率分辨率，窗长越长，截取的信号越长，傅里叶变换后频率分辨率越高，时间分辨率越低；相反，窗长越短，截取的信号就越短，频率分辨率越低，时间分辨率越高

因此，MPEG音频压缩编码的第一条线，利用子带分析滤波器组使信号具有高的时间分辨率，确保在短暂冲击信号情况下，编码的声音信号仍具有足够高的质量。第二条线利用FFT运算，使信号具有高的频率分辨率，因为掩蔽阈值是从功率谱密度推出来的

重要模块分析

多相滤波器组

子带编码：将原始信号分解为若干个子频带，对其分别进行编码处理后再合成为全频带信号
多相滤波器组用来分割子带，将PCM样本变换到32个子带的频域信号
缺点：
- 等带宽的滤波器组与人类听觉系统的临界频带不对应，在低频区域，单个子带会覆盖多个临界频带，在这种情况下，量化比特数不能兼顾每个临界频带
- 滤波器组与其逆过程不是无失真的，但是滤波器组引入的误差很小，且听不到
- 子带间频率有混叠，滤波后的相邻子带有频率混叠现象，一个子带中的信号可以影响相邻子带的输出

比例因子选择

比例因子：对各个子带每12个样点进行一次比例因子计算，先定出12个样点中绝对值的最大值，查比例因子表中比这个最大值大的最小值作为比例因子。用6bit表示。
比例因子选择：每帧中每个子带的三个比例因子被一起考虑，划分成特定的几种模式，根据这些模式，1个、2个或3个比例因子和比例因子选择信息（每子带2bit）一起被传送。如果一个比例因子和下一个只有很小的差别，就只传送大的一个，这种情况对于稳态信号经常出现。

心理声学模型

输入为比例因子和FFT变换的结果，输出为信掩比，用于动态比特分配

动态比特分配

layer Ⅰ

输入为（目标）码率和信掩比，输出为量化比特数

在调整到固定的码率之前，要先确定可用于样值编码的有效比特数，这个数值取决于比例因子、比例因子选择信息、比特分配信息以及辅助数据所需比特数
目标：使整帧和每个子带的总噪声-掩蔽比最小
比特分配的过程
- 计算噪声-掩蔽比NMR=信掩比SMR-信噪比SNR
- 其中SNR由MPEG-1标准给定，NMR表示波形误差与感知测量之间的误差
- 比特分配时的最好情况：信噪比=信掩比
码率分配的实现思路：
- 初始还未分配bit时，信