语音识别技术之连续语音识别

本文介绍了语言模型的基本原理,包括N-Gram模型及其在大词汇量情况下的应用,并讨论了如何通过音素HMM实现对语言模型的优化。此外,还涵盖了语音识别系统的经典结构以及上下文有关模型等关键技术。
部署运行你感兴趣的模型镜像

1. 语言模型

P(X1,X2,X3,X4)=P(X1)∗P(X2∣X1)∗P(X3∣X1,X2)∗P(X4∣X1,X2,X3)P(X_1,X_2,X_3,X_4)=P(X_1)*P(X_2|X_1)*P(X_3|X_1,X_2)*P(X_4|X_1,X_2,X_3)P(X1,X2,X3,X4)=P(X1)P(X2X1)P(X3X1,X2)P(X4X1,X2,X3)
常见形式为N-Gram,每个词只与前N-1个词有关。
其他形式:最大熵、神经网络……

大词汇量:

  • 不能为每个单词训练HMM,改为用每个音素训练一个HMM

HMM复合:

  • 音素HMM按词典拼接成单词HMM
  • 单词HMM与语言模型复合成语言HMM
    在这里插入图片描述
    语音识别系统结构
    在这里插入图片描述
    1990-2010该框架没有变化,只是打了很多补丁…
  • 上下文有关模型
  • 区分式训练
  • 说话人适应
  • 二次打分

评价指标:词错误率
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

您可能感兴趣的与本文相关的镜像

Qwen3-VL-30B

Qwen3-VL-30B

图文对话
Qwen3-VL

Qwen3-VL是迄今为止 Qwen 系列中最强大的视觉-语言模型,这一代在各个方面都进行了全面升级:更优秀的文本理解和生成、更深入的视觉感知和推理、扩展的上下文长度、增强的空间和视频动态理解能力,以及更强的代理交互能力

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值