语音识别技术之连续语音识别

最新推荐文章于 2025-03-09 11:20:12 发布

原创最新推荐文章于 2025-03-09 11:20:12 发布 · 2.7k 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

笔记专栏收录该内容

7 篇文章

订阅专栏

本文介绍了语言模型的基本原理，包括N-Gram模型及其在大词汇量情况下的应用，并讨论了如何通过音素HMM实现对语言模型的优化。此外，还涵盖了语音识别系统的经典结构以及上下文有关模型等关键技术。

部署运行你感兴趣的模型镜像

1. 语言模型

$P(X_1,X_2,X_3,X_4)=P(X_1)*P(X_2|X_1)*P(X_3|X_1,X_2)*P(X_4|X_1,X_2,X_3)$
常见形式为N-Gram，每个词只与前N-1个词有关。
其他形式：最大熵、神经网络……

大词汇量：

不能为每个单词训练HMM，改为用每个音素训练一个HMM

HMM复合：

音素HMM按词典拼接成单词HMM
单词HMM与语言模型复合成语言HMM

语音识别系统结构

1990-2010该框架没有变化，只是打了很多补丁…
上下文有关模型
区分式训练
说话人适应
二次打分

评价指标：词错误率
在这里插入图片描述

您可能感兴趣的与本文相关的镜像

Qwen3-VL-30B

Qwen3-VL-30B

图文对话

Qwen3-VL

Qwen3-VL是迄今为止 Qwen 系列中最强大的视觉-语言模型，这一代在各个方面都进行了全面升级：更优秀的文本理解和生成、更深入的视觉感知和推理、扩展的上下文长度、增强的空间和视频动态理解能力，以及更强的代理交互能力

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。