1.基本术语
- 语音特征
- MFCC:Mel Frequency Cepstral Ceofficient,目前最主流的语音信号特征提取方式,相比ceptrum的流程,主要是增加了mel滤波,另外用DCT替换了IFFT。
- Fbank:亦称MFSC(log mel-frequency spectral Coefficients),特征的提取方法就是相当于MFCC去掉最后一步的离散余弦变换,跟MFCC特征相比,Fbank特征保留了更多的原始语音数据。
- 声学模型:
- DNN:
- GMM:
- HMM:
- 语音识别工具
- HTK:(HMM Toolkit)一款基于hmm模型的语音处理工具,c代码实现,最主流的LPC,MFCC,FBANK(MFSC)和PLP都是支持的
- Kaldi:开源语音识别工具,C++实现,支持fbank,mfcc,spectrogram,pitch和mel单独实现,做的事情要比htk多,而且工具包有兼容HTK的选项,kaldi在语音特征提取方面更丰富,扩展性更好。
- W2l:C++实现,支持MFCC和MFSC两种语音特征提取
- 语音唤醒:在连续语流中实时检测出说话人特定片段(唤醒词),从而启动语音识别模块开始工作
- 语音识别
- 短语音识别:60秒以下的音频识别为文字。适用于语音对话、语音控制、语音输入等场景。
- 实时长语音识别:可以将音频流实时识别为文字,并返回每句话的开始和结束时间,适用于长句语音输入、音视频字幕、会议等场景。
- 音频文件转写:可以将大批量的音频文件异步转写为文字。适合批量录音质检、会议内容总结、录音内容分析等场景,一般12小时内
- 语音合成:语音合成可将文字信息转化为声音信息,适

本文介绍了语音识别领域的关键概念,包括语音特征(如MFCC、Fbank)、声学模型(如DNN、GMM、HMM)、语音识别工具(如HTK、Kaldi、W2l),以及语音唤醒、语音合成等技术。此外,还探讨了语音技能、意图、任务等对话交互要素,并列举了百度、思必驰、讯飞等大厂资源。
最低0.47元/天 解锁文章
450

被折叠的 条评论
为什么被折叠?



