FunASR(A Fundamental End-to-End Speech Recognition Toolkit)是一个基础的语音识别工具包,提供多种功能,包括语音识别(ASR)、语音端点检测(VAD)、标点恢复(PR)、语言模型(LM)、说话人分离等。项目源地址
1 语音识别(ASR)
语音识别技术(Automatic Speech Recognition, ASR)是一种将人的语音(声学信号)转换为文本信息的技术(微信的语音转文字就是语音识别的典型应用,把我们说的音频信息转换成文字内容)。
1.1 语料库
语料库(Corpus)就是包含拼音与汉字的对应(中文)和音标与单词的对应(英文)的词典(Dictionary),其目的是根据声学模型识别出来的音素(Phoneme),来找到对应的汉字或者单词,将声学模型(AM)和语言模型(LM)两者联系起来。
1.2 音频采集
音频采集是指人的声音信息需要使用麦克风阵列或其他音频设备采集和处理说话者的音频信息。

本文介绍了FunASR这一语音识别工具包,涵盖了语音识别、VAD、PR、LM等功能,阐述了技术原理,包括声学模型、语言模型和预处理等关键步骤,并提及了实战应用,如Python+HTML的实时语音识别示例。
最低0.47元/天 解锁文章
1947

被折叠的 条评论
为什么被折叠?



