听觉感知与流形成的奥秘
1. 响度感知
在语音和音乐中,响度的表现有所不同。对于音节内的声音,存在具有交际意义的可感知响度。对于较长片段的语音,其响度轮廓主要由音节核心的响度变化决定。而在音乐旋律方面,打击乐器发出的音调,其最响亮的部分在音调起始处;但弓弦乐器和管乐器发出的音调则可能不同。对于由持续音调组成的旋律,其响度更适合被看作是一个在单个音调和音调之间都可能变化的轮廓。
2. 音高感知
2.1 音高感知模型
目前大多数音高感知模型基于听觉神经纤维尖峰序列的时间精细结构(TFS)。其原理是试图找出音调谐波中最常见的周期,通过对整个音调拓扑阵列上的自相关或自协方差函数(ACVF)进行求和来实现。ACVF的峰值代表听觉神经纤维中尖峰序列的间隔分布峰值,求和结果即为总结自协方差函数(SACVF)。与原点分离的最大峰值的延迟被认为代表尖峰序列中最常见的间隔,从而作为音高周期的估计。这种方法能够正确估计各种或多或少具有谐波特性的声音的音高,包括有声语音的音高、谐波声音的虚拟音高、重复音高等。SACVF最大峰值相对于原点峰值的高度被提议用来表示感知的音/噪比或音高显著性,也有人提议不仅考虑SACVF的主峰,还考虑主峰延迟整数倍处的峰值。
2.2 音高估计问题
音高估计存在一些问题。首先,判断一个声音是否有音高是个难题。除了静音和一些特殊声音外,SACVF总是有峰值,但有些声音(如单个脉冲对)虽然峰值清晰,但音高却难以听见。在快速变化的声音(如辅音簇)中,SACVF中峰值的位置波动非常快,与任何感知到的音高频率都无关。有声摩擦音(如 /v/ 或 /z/)中存在大量噪声也会带来问题。部分问题可以通过只关注在一定积分时间内
超级会员免费看
订阅专栏 解锁全文
54

被折叠的 条评论
为什么被折叠?



