面向聋人的动态唇形匹配视觉语音学习系统
一、引言
如今,约有3500万美国人存在听力障碍。根据美国国家卫生统计中心(NCHS)的最新数据,每1000名听力受损者中,约有12人年龄在18岁以下。研究表明,即使是轻微的听力损失,也会给儿童与外界互动技能的发展带来重大挑战。
对于聋人而言,缺乏听觉反馈使得语音学习困难重重,他们很难立即判断自己的发音是否正确。一些研究人员提出根据音频信号使用动画作为反馈,这能帮助聋人了解自己发音是否正确,但无法提供如何纠正发音以及错误发音与教师发音差异的信息。
另一方面,视觉线索通常能为语音识别提供补充信息。例如,观察说话“apple”时的唇动视频序列,聋人可以更直观地看到错误发音和正确发音之间的差异。有研究显示,结合音频和视觉两种模式进行语音识别,比仅使用音频模式有显著提升。Matthews等人结合唇轮廓和唇外观信息识别孤立字母A - Z,并使用隐马尔可夫模型(HMM)对语音的时间动态进行建模,证明了仅基于视觉模式的语音识别的有效性。在嘈杂环境中,音频信号严重受损,基于视觉的语音识别就显得尤为重要。
受这些语音识别进展的启发,我们提出了一个基于视觉的语音学习框架,以帮助聋人学习语音。该系统配置为电子辅导系统,聋人学生通过电脑跟随电子导师学习语音。网络摄像头捕捉学生的面部和唇动,实时将学生的唇动与预录制导师的唇动进行比较,并通过易于理解的视觉显示为学生提供交互式反馈。
与通常只能识别少量单词的基于视觉的语音识别不同,实际的语音学习系统需要处理更大的词汇量。如果要识别学生和教师之间的每一个发音,设计语音学习系统将极其困难。因此,我们提出了一种新的框架,通过提取动态形状差异特征(DSDF)来直接测量两个说话者(学生和教