无需训练即可教语音识别器学习新词

无需训练即可教语音识别器学习新词

使用罕见词或词汇表外词列表对连接时序分类模型进行偏置,可实现个性化语音识别。

技术背景

近年来,自动语音识别已转向全神经网络模型。连接时序分类损失函数因其无需依赖先前上下文即可进行预测,成为ASR(特别是端到端ASR)的有吸引力的选择,从而产生推理延迟低的简单模型。

与早期使用词典将音素匹配到候选词的混合ASR模型不同,全神经网络模型难以适应罕见或不熟悉的词汇。由于缺乏上下文,对CTC模型进行新词偏置尤其困难:模型在任何给定时间步的预测都独立于先前时间步的输出,这种相同的预测方案虽然能实现低推理延迟的解码,但也带来了适应性问题。

解决方案

在SLT研讨会上提出的方法,使CTC模型能够正确转录新实体名称而无需重新训练。该方法包含多种技术,用于将模型偏向列表中的名称。这些技术既适用于将输入转换为向量表示的模型编码器,也适用于评估候选输出序列的束搜索解码器。这些技术可以组合应用,以最大化准确转录的可能性。

编码器偏置

为了偏置CTC模型的编码器,我们使用上下文适配器——这是一个在冻结基础CTC模型权重后训练的独立模块。适配器将训练示例中的罕见词集合作为输入,并学习词语的子词单元序列与其音频表示之间的映射。

在基础网络中,我们使用额外的CTC损失来训练编码器中间层(第6层和第12层)的表示,以产生子词序列。这使得模型能够使用先前时间步的输出来影响当前帧的预测。我们的适配器使用这些中间层表示的加权和作为音频表示,从而抵消CTC模型的条件独立性假设。

在推理时,我们使用上下文适配器嵌入罕见或词汇表外实体名称列表,在音频的每个时间帧,注意力模块尝试将名称嵌入与音频表示进行匹配。注意力模块也可以通过关注特殊的标记来选择忽略所有名称。如果音频确实包含提供列表中的某些实体,则相应子词单元序列的概率会增加。

解码器偏置

我们在推理时直接应用以下解码器偏置技术获得了积极结果:

  • 自适应子词增强:在束搜索解码中,如果top-k子词序列以自定义实体列表中出现的子词开头,则动态提升其概率
  • 单字增强:通过OOV/BOOST类将实体名称列表中的词添加到外部语言模型,以在推理期间保持语言模型不变
  • 基于音素距离的重评分:使用中间层网络的音素输出,与CTC模型输出执行强制对齐,计算对齐成本用于重评分n-best列表
  • 基于发音的词典查找:对于罕见词和OOV词,使用中间层网络的音素预测进行强制对齐,识别音素序列中的词边界
  • 字素到字素技术:使用映射表将单个字素映射到其多个可能发音,以解析实体名称列表中词的替代发音

联合模型效果

我们提出了一个结合上述编码器和解码器偏置技术的联合模型,这些技术相互补充并产生叠加增益。在包含困难医学术语的数据集上,我们的方法将ASR模型在这些实体上的F1分数从无偏置模型的39%提高到62%。在包含欧洲议会录音的公开基准测试中,我们的方法将罕见实体(城市名称、人名等)的F1识别分数从49%提高到80%,且无需重新训练基础ASR模型。

该方法推动了语音社区朝着CTC模型的零样本个性化ASR方向发展,CTC模型正成为ASR系统中日益普遍的选择。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值