机器学习在自动语音识别中的应用:提升与判别训练
1. 引言
在自动语音识别领域,传统的最大似然(ML)训练和判别训练在增加模型参数数量时,往往无法进一步提升性能。本文将介绍两种机器学习技术——提升(Boosting)和判别训练在基于隐马尔可夫模型(HMM)的自动语音识别中的应用和评估。
2. 实验数据库
在大词汇量连续语音识别(LVCSR)中,我们在两个任务上评估了算法:专业听写和Switchboard。
- 专业听写 :使用内部收集的医疗报告真实录音数据,由美国各地的男性通过长途电话线自发说出。该数据库包含多种说话风格、口音和语速,以及大量自发语音效果,如填充停顿、部分单词、重复和重新开始等。声学训练语料约58小时,包含426名说话者和50万个单词。由于平均句子长度约为66个单词,为降低训练复杂度,我们在足够长的静音间隔(如0.3秒)处对训练语句进行分割,使平均训练句子长度降至约7个单词。评估在两个未分割的测试语料上进行:开发集(DEV)包含5.0小时语音,11名男性说话者和38,000个单词;评估集(EVAL)包含3.3小时语音,另外11名男性说话者和26,500个单词。
- Switchboard :对Switchboard语料库进行评估,该语料库包含通过电话线录制的自发对话。男性(女性)训练语料分别约为57小时(73小时),包含86,000(114,000)个语句。由于平均句子长度约为7个单词,我们未对训练数据进行分割。评估在约翰霍普金斯大学1997年夏季研讨会的开发语料上进行,男性(女性)语料分别包含约1小时(0.5小时)数据和1,600(900)个语句。
超级会员免费看
订阅专栏 解锁全文
1398

被折叠的 条评论
为什么被折叠?



