基于开源框架的自动语音识别系统训练案例研究
1. 引言
在自动语音识别(ASR)领域,使用开源框架训练高效的模型是当前研究和应用的热点。本案例研究聚焦于利用开源框架训练ASR系统,从传统的ASR引擎开始,逐步过渡到更先进的模型,最终以TDNN模型结束。
2. 数据集:Common Voice
Common Voice是Mozilla发布的一个包含500小时语音的语料库,由众包参与者录制文本语音而成。每个示例是一个单独的语音录制,录制完成后会经过同行评审以评估转录 - 录制对的质量。根据每个语音获得的正负投票数量,语音被标记为有效、无效或其他类别。
- 有效类别 :至少经过两次评审,且多数评审确认音频与文本匹配。
- 无效类别 :同样至少经过两次评审,但多数评审确认音频与文本不匹配。
- 其他类别 :投票少于两次或没有多数共识的所有文件。
有效类和其他类又进一步分为训练集、测试集和验证集。其中,“cv - valid - train”数据集总共包含239.81小时的音频。该数据集具有复杂性,包含各种口音、录制环境、年龄和性别等因素。
3. 软件工具和库
3.1 Kaldi
Kaldi是最广泛使用的ASR工具包之一,主要为研究人员和专业人士开发。它由约翰霍普金斯大学主导开发,完全用C++构建,通过shell脚本将库的各个组件连接起来。其设计旨在提供一个灵活的工具包,可以根据任务进行修改和扩展。一系列被称为“recipes”的脚本用于连接组件以进行训练和
超级会员免费看
订阅专栏 解锁全文
1010

被折叠的 条评论
为什么被折叠?



