语音识别(笔记)
自动语音识别的定义:
语音识别技术,也被称为自动语音识别Automatic Speech Recognition,(ASR),其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。
语音识别只有一个核心任务:
搜狗百科
将人类的语音转成文字
语言由单词组成
单词由音素组成
机器要做的就是:
1. 将一段声波按帧切开
2. 用帧组成状态
3. 用状态组成音素
4. 再将音素合成单词
语音就变成了文字
graph LR
语音识别应用-->声纹识别
语音识别应用-->语音合成
声纹识别-->智能音箱
语音合成-->智能音箱
声纹识别-->车载设备
语音合成-->车载设备
声纹识别:即识别说话者是谁
语音合成:即将文字信转换成人类听得懂的语音
影响语音识别的原因很简单
口音、距离、噪音都会影响语音识别的准确度
最好选个安静的环境
本文深入解析了自动语音识别(ASR)技术,介绍了其核心任务是将人类语音转换为计算机可读的输入,如按键、二进制编码或字符序列。文章详细说明了语音识别的过程,包括声波切帧、状态组成、音素合成及单词识别,并探讨了影响识别准确度的因素,如口音、距离和噪音。
7872

被折叠的 条评论
为什么被折叠?



