英语语音口音识别的监督机器学习模型
在当今科技飞速发展的时代,人机交互方式正经历着巨大的变革,从传统的键盘和鼠标输入逐渐向手势和语音等现代方式转变。语音识别技术的重要性日益凸显,但全球大部分英语使用者带有口音,而语音识别系统对这些口音的识别能力却十分有限。因此,提高语音识别系统对不同口音的理解能力变得至关重要。
1. 背景与动机
语音控制的虚拟助手,如苹果的Siri、谷歌助手和亚马逊的Alexa,已经广泛融入智能手机、智能音箱和计算机中。据调查,近50%的美国智能设备用户会使用语音助手,而且这些助手为视障人士提供了极大的便利。然而,全球约15亿英语使用者中,76%带有语音识别系统难以理解的口音。例如,根据埃森哲的调查,到2018年底,中国、印度、美国、巴西和墨西哥的在线消费者中,每三人就有一人将拥有独立的数字语音助手,但这些系统大多是针对美国口音进行优化的。
自动语音识别系统(ASR)在处理美国口音时表现较好,但对于其他口音,由于缺乏全面的训练数据,其性能受到了限制。英语有近100种口音和方言,要收集所有口音的标注数据是非常困难的。此外,口音检测在犯罪调查等领域也有重要应用,通过分析短音频片段中的口音,可以帮助识别说话者的身份和种族。
2. 相关研究
在口音分类领域,已有许多研究致力于提高语音识别系统对不同口音的理解能力。Albert Chu等人使用自生成的20秒音频片段,对机器学习技术在口音分类中的应用进行了比较分析,探讨了支持向量机(SVM)和主成分分析(PCA)在特征描述中的应用。Liu Wai Kat等人提出了一种基于音素类模型的快速口音分类方法,该方法可以将语音识别系统的错误率降低13.5%。
从音频信号中
超级会员免费看
订阅专栏 解锁全文
866

被折叠的 条评论
为什么被折叠?



