用于鲁棒语音识别的语义增强框架及非自回归端到端 ASR 模型的时间戳预测
自动语音识别(ASR)在各领域对话系统中广泛应用,但其识别结果的语义可理解性问题、领域适应性问题以及优化不一致问题仍待解决。同时,时间戳预测作为 ASR 的重要子任务,传统系统和端到端系统在该任务上各有优劣。本文将介绍一种语义增强框架以提升 ASR 性能,还会阐述在非自回归端到端 ASR 模型中实现时间戳预测的方法。
1. 语音识别现存问题
自动语音识别旨在将连续音频输入转换为人类可读的文本输出,是众多人工智能应用的关键技术。然而,当前 ASR 系统存在以下问题:
- 领域问题 :系统输出主要关注声学特征,面对低质量或跨领域音频输入时性能显著下降。
- 语义可理解性问题 :由于建模符号精细,模型输出与最终解码输出间需复杂后处理流程来解决语义可理解性问题。
- 优化不一致问题 :推理阶段需语言模型降低词错误率,但语言模型和声学模型训练目标不同,可能导致模块间不匹配。
2. 相关工作
为解决上述问题,研究人员提出了多种方法,主要可分为上下文方法和自适应方法:
- 上下文方法 :旨在使结果偏向特定标记,可分为深度上下文和外部上下文。深度上下文将上下文模块集成到端到端深度神经网络中;外部上下文则将外部模块应用于 ASR 系统的输出假设。
- 自适应方法 :利用其他任务模型的信息使 ASR 模型在多领域自适应,主要方法包括语言模型融合和从外部语言模型学习。语
超级会员免费看
订阅专栏 解锁全文
3349

被折叠的 条评论
为什么被折叠?



