该篇翻译自How to start with Kaldi and Speech Recognition
Kaldi架构
Kaldi主要分为两个主要部分:分别是特征抽取、识别模型
特征抽取模块
大多数处理音频数据的模型都会需要对音频进行特征的抽取,用以达到以下两个目的:
- 识别人类语音的声音
- 丢弃任何不必要的噪音。
今天在行业,广泛使用MFCC:
在Kaldi中,还使用了额外的两种特征:
- CMVN:用于更好的对MFCC特征进行归一化
- I-Vectors:用于声纹识别,将说话人的特征从音频信息中单独提取出来,让音频特征更“纯粹”