儿童语音识别与自闭症评估的技术探索
儿童语音识别的挑战与解决方案
在儿童语音自动识别(ASR)系统的开发中,零资源条件是一个巨大的挑战。由于缺乏特定领域的数据,通常会使用成人语音进行训练,但这会导致训练集和测试集之间出现严重的声学不匹配,因为成人和儿童语音的属性存在差异。
为了解决特定领域数据稀缺的问题,研究人员对成人语音训练数据集的共振峰频率和持续时间进行了适当修改,然后将其合并到训练中。同时,还提出了两种前端语音参数化技术,用于零资源儿童ASR任务,这两种技术更加稳健。具体而言,这些方法分别采用了基于音高自适应倒谱截断和变分模态分解的频谱平滑技术,以减轻音高引起的声学不匹配的不良影响。此外,研究人员还将传统的梅尔滤波器组替换为伽马通滤波器组。
在对年龄组进行特定分析时,研究人员将测试集分为两组:GR - I 由 4 - 8 岁儿童的语音话语组成;GR - II 由 9 - 14 岁儿童的数据组成。相关的词错误率(WER)和字符错误率(CER)如下表所示:
| 前端特征 | WER (%) - GR - I | WER (%) - GR - II | CER (%) - GR - I | CER (%) - GR - II |
| — | — | — | — | — |
| GTF - CC | 16.23 | 7.40 | 12.68 | 4.99 |
| PACT - GTF - CC | 12.20 | 6.38 | 9.16 | 4.08 |
| VMD - GTF - CC | 11.60 | 6.22 | 8.70 | 4.12 |
从这些数据可以看出,使用提出的特征时,相对于基线有显著的降低。当
超级会员免费看
订阅专栏 解锁全文
68

被折叠的 条评论
为什么被折叠?



