2007 CMU - InterACT 普通话语音转文字转录系统剖析
1. 系统概述
2007 年的 CMU - InterACT 普通话语音转文字(STT)转录系统是在 GALE 项目的背景下开发的。该系统采用 3 遍解码策略,结合了经过超 1300 小时转录音频训练的区分性声学模型。为应对广播语音中广泛的主题领域,运用了基于潜在语义分析(LSA)的无监督语言模型自适应方案,还开发了专门用于口语翻译的新颖格组合方法。在 GALE 第二阶段评估中,该系统在 dev07 上的字符错误率(CER)为 12.9%,在 eval07 未封存测试集上为 13.3%。
在项目的前两年,为提高转录准确性,主要探索了四个研究领域:
- 音频分割和说话人聚类
- 声学模型的区分性训练
- 无监督语言模型自适应
- STT 系统组合技术
2. 音频分割和聚类
- 分割实现 :说话人分割和聚类系统中,音频分割由一个具有四个类别的 HMM 分割器实现,这四个类别分别是语音、噪声、静音和音乐。语音特征采用 13 维 MFCC 及其一阶和二阶导数。每个类别由一个具有 64 个高斯分布的 GMM 表示,这些 GMM 是在 3 小时手动标注的 HUB4 节目上训练得到的。
- 聚类方法 :得到的语音片段会自动聚类,理想情况下为每个说话人形成一个风格聚类。聚类过程使用具有贝叶斯信息准则(BIC)停止标准的层次聚合聚类技术。首先在所有语音片段上构建一个绑定高斯混合模型(TGMM),然后通过调整 TGMM 为每个聚类训练一个 GMM。最初,每个片段被
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



