语音识别调研报告

本文是一份全面的语音识别调研报告,详细解析了Automatic Speech Recognition(ASR)技术,涵盖其核心原理与应用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

语音识别调研报告

一、语音识别:(Automatic Speech Recognition,ASR)

- 应用:语音识别是为了让计算机理解自然语言。
- 中文语音识别的关键点:1.句到词的分解,词到音节的分解;2.语音的模糊性,如多音字问题;3.词在不同语境中不同;4.环境噪声的印象。
- 处理的核心步骤:
		- - 1. 音频处理:消除噪声,让信号更能反映语音的本质特征。
		- - 2. 声学特征提取:MFCC、Mel等
		- - 3. 建立声学模型和语言模型:语音识别由这两种模型组成。

二、语音识别技术概要:

- 1. 隐马尔科夫链(HMM) 技术成熟、稳定为目前主流的语音识别方法。
	1.1 核心的框架HTK包
- 2. 人工神经网络,也就是DNN方法。
	- - 2.1 主流的语音识别解码器为(WFST):该解码器把语言模型和声学模型集成为一个大的网络,大大的提高了解码速度。
	- - 2.2 主流的DNN方法有:
		2.2.1 ASRT:中文模型
			2.2.1.1 核心算法:卷积网络、CTC声学模型,熵最大的隐马尔科夫语言模型
			2.2.1.2 准确率:80%
		2.2.2 训练平台:keras+tensorflow
	- - 2.3 DeepSpeechRecognition 模型
	- - 2.4 Kaldi方法类
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

AI拉呱

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值