语音特征短时解析建模:从神经机制到计算实现
1. 语音声学特征基础
语音中的共振峰是理解语音特征的关键。例如,与元音 [a] 结合发音的四个近音 [β, ð, ζ, γ](前、中前、中后、后)的共振峰位置和轨迹,能展示稳定的元音位置和辅音轨迹。在 /aβa:aða:aζa:aγa/ 这样的组合中,共振峰稳定的部分对应元音核心,而其间的部分对应摩擦浊辅音(近音)的位置。在元音三角图上,元音 [a] 的位置就像一个吸引子,共振峰轨迹从这里出发并回归。
2. 听觉系统中的语音处理
语音处理始于听觉系统,当声波通过外耳和中耳到达耳蜗时,就开启了这一过程。耳蜗中的基底膜就像一个滤波器组,对信号成分进行频率和时间分离。低频在膜的顶端产生最大兴奋,高频则在基部区域产生最大兴奋。这样就产生了通过位置和相位锁定对频率进行编码的有组织的尖峰状刺激流。这些刺激流通过听觉神经从耳蜗传递到耳蜗核的第一个中继阶段,信息再沿着听觉神经纤维流向更高的神经中枢,每条纤维专门传输不同的特征频率(CF)。
听觉系统中的主要神经通路和结构包括:
- 耳蜗:产生时间 - 频率组织的表征,并通过听觉神经传递到耳蜗核。
- 耳蜗核(CN):包含多种专门的神经元,如初级样(Pl)、起始(On)、斩波(Ch)和暂停(Pb)神经元,参与时间处理。
- 上橄榄核:处理双耳信息,有选择性的音调主题单元(CF)。
- 下丘和内侧膝状体:有专门检测音调运动(FM)、宽带频谱密度(NB)和双耳处理(Bi)的单元。
- 听觉皮层:有柱状分层单元(Cl)和广泛连接单元(Ec),其功能可能与短时记忆有关。
下面是听觉系统语音处理的流程图:
<
超级会员免费看
订阅专栏 解锁全文
2390

被折叠的 条评论
为什么被折叠?



