基于开源框架的自动语音识别系统训练案例研究
1. 引言
在自动语音识别(ASR)领域,使用开源框架训练高性能模型是当前研究和实践的热点。本文将围绕使用开源框架在Common Voice数据集上训练ASR系统展开,详细介绍相关技术和操作步骤。
2. 数据集:Common Voice
Common Voice是Mozilla发布的一个包含500小时语音的语料库,由众包参与者录制文本语音而成。每个示例是一个单独的语音片段,录制完成后会经过同行评审以评估转录 - 录音对的质量。根据每个语音片段获得的正负投票数量,其被标记为有效、无效或其他类别。
- 有效类别 :至少经过两次评审,且多数确认音频与文本匹配的样本。
- 无效类别 :同样至少经过两次评审,但多数确认音频与文本不匹配的样本。
- 其他类别 :投票少于两次或没有多数共识的所有文件。
每个子组(有效和其他)又进一步分为训练集、测试集和验证集。其中,“cv - valid - train”数据集总共包含239.81小时的音频。该数据集具有复杂性,包含各种口音、录音环境、年龄和性别等因素。
3. 软件工具和库
- Kaldi :是最广泛使用的ASR工具包之一,主要由约翰霍普金斯大学开发,专为研究人员和专业人士使用。它完全用C++构建,通过shell脚本将库的各个组件连接起来。其设计注重提供一个灵活的工具包,可以根据任务进行修改和扩展。通过一系列称为“recipes”的脚本连接组件来执行训练和推理。
超级会员免费看
订阅专栏 解锁全文

1004

被折叠的 条评论
为什么被折叠?



