语音技术在构音障碍与创伤性脑损伤患者中的应用探索
1. 基于Whisper的构音障碍自动语音识别
在构音障碍自动语音识别(ASR)的研究中,为充分探究基于Whisper方法的意义,研究团队未采用数据增强技术。尽管训练数据显著少于利用数据增强的方法,但该方法仍取得了相当的性能。这表明基于Whisper的方法是构音障碍ASR的一个有前景的解决方案。
未来研究将聚焦于将各种数据增强和合成数据生成技术与基于Whisper的ASR系统相结合。还计划将研究扩展到其他构音障碍语音数据集,如TORGO语料库,以进一步评估该方法的有效性。此外,由于标准语音语料库UA Speech和TORGO主要包含痉挛型构音障碍数据,后续会将研究拓展到其他类型的构音障碍,如弛缓型、共济失调型、运动过少型、运动过多型和混合型构音障碍。研究团队也打算研究其他深度学习模型,如wave2vec 2.0,并与Whisper模型进行性能比较。未来还会专注于开发应用程序编程接口(APIs),并进行构音障碍患者的实际实时语音记录。同时,鉴于构音障碍语音属于医疗数据,保护其隐私是一项技术挑战,未来工作将优先利用联邦学习的最新进展,将模型参数而非实际敏感的私人数据从边缘设备(如手机、传感器等)传输到云服务器。
2. 创伤性脑损伤患者含糊语音时长修改的意义
2.1 研究背景与目的
人类语音是大脑认知区域和语音发音器官协调神经肌肉活动的结果。任何这些区域的损伤都会导致语音清晰度降低和自然度变差,听众需要付出更多努力才能理解。在基于语音的医疗保健中,这些语音障碍通常被称为构音障碍。本研究聚焦于创伤性脑损伤(TBI)患者的构音障碍语音,特别是含糊语音。
收集构音障碍语音数据
超级会员免费看
订阅专栏 解锁全文
51

被折叠的 条评论
为什么被折叠?



