10、低资源语言语音识别技术改进

低资源语言语音识别技术改进

1. 引言

OpenASR21挑战旨在评估低资源语言约束下自动语音识别(ASR)技术的现状。该任务需对多达15种不同的低资源语言和3种大小写敏感计分的语言的音频数据集进行ASR,以生成识别文本。其中10种语言是从OpenASR20挑战中延续而来,另外新增了5种语言。同时,为哈萨克语、斯瓦希里语和他加禄语这三种语言引入了大小写敏感计分,用于评估ASR对专有名词的识别性能。

在受限条件下,仅能使用NIST为每种语言提供的10小时Build数据集来训练声学模型,可使用Build数据集或公开资源中的额外文本数据训练语言模型,但需在系统描述中详细说明。且不允许使用预训练的大型模型。

此前在OpenASR20中,有两支团队使用来自语言数据联盟(LDC)语料库的更大训练文本和词典,显著降低了每种语言的词错误率(WER)。在OpenASR21中,USTC/iFlytek Research团队取得了最低的WER,他们通过TTS生成额外音频、插值语言模型以及用双向LSTMP语言模型重新评分等方法,降低了WER。还有团队使用更大的词典,但未展示其效果。也有团队使用不同特征生成声学模型,并通过过滤公开文本生成语言模型,降低了部分语言的WER。

然而,添加公开文本对WER的降低幅度较小,主要原因是公开文本多来自新闻和网页,与OpenASR21中的两人对话不同。因此,我们引入了一种使用反向翻译方法生成合成对话文本的方法,以增加感兴趣语言的数据,并首次将反向翻译用于改进单语ASR模型。同时,我们还对语音活动检测器(VAD)和词典进行了改进。

2. 数据集

在受限条件下,声学模型训练仅使用NIST为处理语言提供的10小时

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值