阿拉伯语语音转录技术解析
1. 研究背景与目标
DARPA的全球自主语言开发(GALE)计划旨在让只会英语的人能够获取外语(阿拉伯语和中文)的语音和文本信息,特别是在军事场景中。本文聚焦于阿拉伯语广播转录,介绍了相关的研究成果和技术方法。
2. 数据来源与系统概述
2.1 声学训练数据
用于声学模型训练的语料库包括:
- 85小时由BBN提供的带有转录文本的FBIS和TDT - 4音频
- 51小时由LDC为GALE第一阶段(P1)评估提供的转录GALE数据
- 700小时由LDC为第二阶段提供的转录GALE数据
- 5.6小时由BBN提供的带有手动元音标注转录文本的BN数据(BNAT - 05)
- 5.1小时由BBN提供的带有手动元音标注转录文本的BN数据(BNAD - 05)
- 500小时的转录伊拉克数据(TRANSTAC)
- 1800小时来自EARS BN - 03语料库的未转录音频
- 10000小时在IBM研究中心收集的未转录音频(TALES)
不同来源的阿拉伯语广播训练数据时长差异较大,如下表所示:
| Source | Hours | Source | Hours |
| — | — | — | — |
| Al Arabiya | 2455 | LBC (Lebanese) Flash News | 88 |
| Al Jazeera Morning News | 306 | LBC International News | 161 |
| Al Jazeera Midday New
超级会员免费看
订阅专栏 解锁全文
15

被折叠的 条评论
为什么被折叠?



