语音特征分析与连续预测变量变换在相关系统中的应用
1. 声调语言说话人识别系统的语音特征分析
1.1 语音特征受环境影响情况
在次优条件下(如存在噪声、信道缺陷等),不同说话人的语音特征会受到不同程度的影响。对于基频(F0)信号,老年男性和女性说话者的失真似乎更为严重。这意味着较高的 F0 信号不太容易受到次优条件的影响,因为在信号提取过程中,环境和信道缺陷往往会在高 F0 信号中分离出来,但对于低 F0 的声音则不太容易分离。
而强度特征则有所不同,从相关图形(图 57.6 和 57.7)来看,强度特征不受次优条件的影响。这些图形中,y 轴表示强度模式,x 轴表示语音帧,各种绘图显示出清晰的模式,与 F0 信号经历的严重失真形成对比。此外,不同说话者之间的强度模式变异性在所有说话者类别中大致相同,不过儿童类别中有少数说话者会产生近乎线性(或水平)且模式不明显的强度。这种线性模式可能与儿童的年龄有关,随着儿童年龄的增长,这种模式会更加明显。
对于声门脉冲信号,相关图形(图 57.8 和 57.9)显示,所有说话者的声门脉冲模式都存在变化,这表明声门脉冲是说话人识别系统的良好候选特征。
1.2 SOM 质量评估
自组织学习能够在无需专家知识的情况下发现输入数据中的重要模式或特征。假设输入数据包含一个最优映射,并指定一个成本函数来明确定义最优解。用于确定映射质量的指标是平均量化误差(Eq)和拓扑误差(ET),其公式如下:
- 平均量化误差:$Eq = \frac{1}{N}\sum_{i = 1}^{N} |x_i - m_i|$
- 拓扑误差:$ET = \frac{1}{N}\sum_{i =
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



