语音识别1——基本知识入门

最新推荐文章于 2025-06-30 13:56:05 发布

原创

最新推荐文章于 2025-06-30 13:56:05 发布 · 1.7k 阅读

CC 4.0 BY-SA版权

文章标签：

本文介绍了语音识别领域的关键概念，包括语音特征（如MFCC、Fbank）、声学模型（如DNN、GMM、HMM）、语音识别工具（如HTK、Kaldi、W2l），以及语音唤醒、语音合成等技术。此外，还探讨了语音技能、意图、任务等对话交互要素，并列举了百度、思必驰、讯飞等大厂资源。

1.基本术语

语音特征
- MFCC：Mel Frequency Cepstral Ceofficient，目前最主流的语音信号特征提取方式，相比ceptrum的流程，主要是增加了mel滤波，另外用DCT替换了IFFT。
- Fbank：亦称MFSC(log mel-frequency spectral Coefficients)，特征的提取方法就是相当于MFCC去掉最后一步的离散余弦变换，跟MFCC特征相比，Fbank特征保留了更多的原始语音数据。
声学模型：
- DNN：
- GMM：
- HMM:
语音识别工具
- HTK：（HMM Toolkit）一款基于hmm模型的语音处理工具，c代码实现，最主流的LPC，MFCC，FBANK（MFSC）和PLP都是支持的
- Kaldi：开源语音识别工具，C++实现，支持fbank，mfcc，spectrogram，pitch和mel单独实现，做的事情要比htk多，而且工具包有兼容HTK的选项，kaldi在语音特征提取方面更丰富，扩展性更好。
- W2l：C++实现，支持MFCC和MFSC两种语音特征提取

语音唤醒:在连续语流中实时检测出说话人特定片段(唤醒词)，从而启动语音识别模块开始工作
语音识别
- 短语音识别：60秒以下的音频识别为文字。适用于语音对话、语音控制、语音输入等场景。
- 实时长语音识别：可以将音频流实时识别为文字，并返回每句话的开始和结束时间，适用于长句语音输入、音视频字幕、会议等场景。
- 音频文件转写：可以将大批量的音频文件异步转写为文字。适合批量录音质检、会议内容总结、录音内容分析等场景，一般12小时内
语音合成：语音合成可将文字信息转化为声音信息，适