28、机器学习在自动语音识别中的应用：提升与判别训练

最新推荐文章于 2025-12-17 08:20:39 发布

net55

最新推荐文章于 2025-12-17 08:20:39 发布

阅读量17

点赞数

CC 4.0 BY-SA版权

分类专栏：机器学习前沿探秘文章标签：机器学习自动语音识别提升训练

本文链接：https://blog.youkuaiyun.com/net55/article/details/152441222

机器学习前沿探秘专栏收录该内容

50 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

机器学习在自动语音识别中的应用：提升与判别训练

1. 引言

在自动语音识别领域，传统的最大似然（ML）训练和判别训练在增加模型参数数量时，往往无法进一步提升性能。本文将介绍两种机器学习技术——提升（Boosting）和判别训练在基于隐马尔可夫模型（HMM）的自动语音识别中的应用和评估。

2. 实验数据库

在大词汇量连续语音识别（LVCSR）中，我们在两个任务上评估了算法：专业听写和Switchboard。
- 专业听写 ：使用内部收集的医疗报告真实录音数据，由美国各地的男性通过长途电话线自发说出。该数据库包含多种说话风格、口音和语速，以及大量自发语音效果，如填充停顿、部分单词、重复和重新开始等。声学训练语料约58小时，包含426名说话者和50万个单词。由于平均句子长度约为66个单词，为降低训练复杂度，我们在足够长的静音间隔（如0.3秒）处对训练语句进行分割，使平均训练句子长度降至约7个单词。评估在两个未分割的测试语料上进行：开发集（DEV）包含5.0小时语音，11名男性说话者和38,000个单词；评估集（EVAL）包含3.3小时语音，另外11名男性说话者和26,500个单词。
- Switchboard ：对Switchboard语料库进行评估，该语料库包含通过电话线录制的自发对话。男性（女性）训练语料分别约为57小时（73小时），包含86,000（114,000）个语句。由于平均句子长度约为7个单词，我们未对训练数据进行分割。评估在约翰霍普金斯大学1997年夏季研讨会的开发语料上进行，男性（女性）语料分别包含约1小时（0.5小时）数据和1,600（900）个语句。

会员秒杀 ¥9.9 重磅福利

超级会员免费看