63、语音技术在构音障碍与创伤性脑损伤患者中的应用探索

最新推荐文章于 2025-10-19 11:45:56 发布

gitlab7runner

最新推荐文章于 2025-10-19 11:45:56 发布

阅读量43

点赞数

CC 4.0 BY-SA版权

分类专栏： SPECOM 2023精华解读文章标签：语音技术构音障碍创伤性脑损伤

本文链接：https://blog.youkuaiyun.com/gitlab7runner/article/details/151701580

SPECOM 2023精华解读专栏收录该内容

67 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

语音技术在构音障碍与创伤性脑损伤患者中的应用探索

1. 基于Whisper的构音障碍自动语音识别

在构音障碍自动语音识别（ASR）的研究中，为充分探究基于Whisper方法的意义，研究团队未采用数据增强技术。尽管训练数据显著少于利用数据增强的方法，但该方法仍取得了相当的性能。这表明基于Whisper的方法是构音障碍ASR的一个有前景的解决方案。

未来研究将聚焦于将各种数据增强和合成数据生成技术与基于Whisper的ASR系统相结合。还计划将研究扩展到其他构音障碍语音数据集，如TORGO语料库，以进一步评估该方法的有效性。此外，由于标准语音语料库UA Speech和TORGO主要包含痉挛型构音障碍数据，后续会将研究拓展到其他类型的构音障碍，如弛缓型、共济失调型、运动过少型、运动过多型和混合型构音障碍。研究团队也打算研究其他深度学习模型，如wave2vec 2.0，并与Whisper模型进行性能比较。未来还会专注于开发应用程序编程接口（APIs），并进行构音障碍患者的实际实时语音记录。同时，鉴于构音障碍语音属于医疗数据，保护其隐私是一项技术挑战，未来工作将优先利用联邦学习的最新进展，将模型参数而非实际敏感的私人数据从边缘设备（如手机、传感器等）传输到云服务器。