心理声学模型:原理、实现与比较
1. 心理声学模型基础
心理声学模型在音频处理中起着关键作用,特别是在确定音频信号的最小掩蔽阈值(MMT)方面。ISO/IEC MPEG - 1标准采用了两种心理声学模型,即心理声学模型1和模型2,用于判断音频信号的不可听性。
1.1 扩展函数比较
不同的扩展函数用于描述掩蔽效应,如二斜率扩展函数(Two - slope SF)、施罗德扩展函数(Schroeder SF)、心理声学模型1扩展函数(Model 1 SF)和模型2扩展函数(Model 2 SF)。在80 dB的水平下对这些扩展函数进行比较,发现二斜率扩展函数最为保守,而模型1扩展函数允许比其他函数更多的向上掩蔽扩展。
1.2 模型选择
考虑到效率,在音频水印方案中选择了心理声学模型1。该模型输入一帧音频信号,输出其MMT,实现过程包括六个步骤:
1. FFT分析和SPL归一化
2. 识别音调(tonal)和非音调(nontonal)掩蔽器
3. 去除无效的音调与非音调掩蔽器
4. 计算单个掩蔽阈值
5. 计算全局掩蔽阈值
6. 确定MMT
2. 心理声学模型1的实现步骤
2.1 FFT分析和SPL归一化
为了准确分析频率成分,对输入的音频帧 $x(n)$ 进行快速傅里叶变换(FFT)。输入帧的大小为 $N = 512$ 点,为了最小化泄漏效应,将 $x(n)$ 乘以修改后的汉宁窗 $w(n)$:
[
w(n) = \sqrt{\frac{8}{3}} hann(N) = \sqrt{\frac
超级会员免费看
订阅专栏 解锁全文
54

被折叠的 条评论
为什么被折叠?



