语音处理中的共振峰跟踪与鲁棒特征提取
1. 自动共振峰跟踪方法
在语音处理中,共振峰跟踪是一项重要的任务。首先,我们会基于初始估计值,手动绘制共振峰轨迹。例如,对于一位女性说出的句子 “ЗatuЗDi:ha: biЗa:la:mihim”(你会用他们的痛苦伤害她的感情吗?),我们手动标记了前三个共振峰(F1、F2 和 F3),每 4 毫秒记录一次,用于数据库中的每个句子。
- 参数设置 :使用的线性预测倒谱(LPC)阶数为 18,窗口分析的时间大小为 4 毫秒,这样可以得到宽带频谱图,更好地展示共振峰轨迹的演变。
- 困难情况 :当有太多接近的 LPC 候选值用于两条共振峰轨迹时,或者在缺乏频谱突出特征的帧,以及频谱突出特征与辅音段的预测共振不匹配时,会出现困难。在这种情况下,会提供名义辅音特定值。
- 准确性验证 :为了验证每个句子的共振峰轨迹的准确性,我们使用 Winsnoori 中实现的 Klatt 合成器,用相应的三个共振峰频率合成声音,检查合成句子是否与原始句子匹配。不过,这种评估是主观的,因为只有作者对结果质量进行评判。
为了定量评估所提出的算法,我们将其与 Praat 的 LPC 方法进行比较,使用我们的共振峰数据库作为参考。
| 方法 | LPC 阶数 | 窗口分析大小 |
| ---- | ---- | ---- |
| 提出的算法 | 18 | 4 ms |
| Praat 的 LPC 方法 | 16 | 25 ms |
评估每种方法时,会计算每个共振峰轨迹(F1、F2 和 F3
超级会员免费看
订阅专栏 解锁全文
526

被折叠的 条评论
为什么被折叠?



