儿童语音关键词识别与情绪状态研究
在语音识别领域,儿童语音识别面临着诸多挑战,如基音敏感性、共振峰分散效应等。同时,对于患有自闭症谱系障碍(ASD)和智力障碍(ID)的儿童,其情绪状态的识别也具有重要的研究价值。本文将围绕儿童语音关键词识别特征以及 ASD 和 ID 儿童情绪状态识别展开详细探讨。
儿童语音关键词识别特征研究
- TASS - MFCC - ARP 特征性能
- 基音匹配与不匹配测试条件下的性能 :TASS - MFCC - ARP 特征融合了 DA - SPF 和共振峰增强方法的优点。为了更好地比较性能,给出了 SPS - MFCC、TAS - MFCC、TAS - MFCC - ARP 和 TASS - MFCC - ARP 的 TWV 值,以及 TASS - MFCC - ARP 相对于 TAS - MFCC - ARP 的百分比相对改进(PRI)。对于儿童测试数据,在 10 个和 20 个关键词集下,TASS - MFCC - ARP 相对于 TAS - MFCC - ARP 的 PRI 分别为 6.47% 和 3.5%;而成年人测试数据的性能非常相似。性能的提升主要得益于从共振峰增强频谱中去除了基音变化。具体数据如下表所示:
| 关键词数量 | 测试数据 | SPS - MFCC | TAS - MFCC | TAS - MFCC - ARP | TASS - MFCC - ARP | PRI |
| ---- | ---- | ---- | ---- | ---- | ---- | ---- |
| 10 | AD 测试 | 0.
- 基音匹配与不匹配测试条件下的性能 :TASS - MFCC - ARP 特征融合了 DA - SPF 和共振峰增强方法的优点。为了更好地比较性能,给出了 SPS - MFCC、TAS - MFCC、TAS - MFCC - ARP 和 TASS - MFCC - ARP 的 TWV 值,以及 TASS - MFCC - ARP 相对于 TAS - MFCC - ARP 的百分比相对改进(PRI)。对于儿童测试数据,在 10 个和 20 个关键词集下,TASS - MFCC - ARP 相对于 TAS - MFCC - ARP 的 PRI 分别为 6.47% 和 3.5%;而成年人测试数据的性能非常相似。性能的提升主要得益于从共振峰增强频谱中去除了基音变化。具体数据如下表所示:
超级会员免费看
订阅专栏 解锁全文
847

被折叠的 条评论
为什么被折叠?



