语音识别1——基本知识入门

本文介绍了语音识别领域的关键概念,包括语音特征(如MFCC、Fbank)、声学模型(如DNN、GMM、HMM)、语音识别工具(如HTK、Kaldi、W2l),以及语音唤醒、语音合成等技术。此外,还探讨了语音技能、意图、任务等对话交互要素,并列举了百度、思必驰、讯飞等大厂资源。

1.基本术语

  • 语音特征
    • MFCC:Mel Frequency Cepstral Ceofficient,目前最主流的语音信号特征提取方式,相比ceptrum的流程,主要是增加了mel滤波,另外用DCT替换了IFFT。
    • Fbank:亦称MFSC(log mel-frequency spectral Coefficients),特征的提取方法就是相当于MFCC去掉最后一步的离散余弦变换,跟MFCC特征相比,Fbank特征保留了更多的原始语音数据。
  • 声学模型:
    • DNN:
    • GMM:
    • HMM:
  • 语音识别工具
    • HTK:(HMM Toolkit)一款基于hmm模型的语音处理工具,c代码实现,最主流的LPC,MFCC,FBANK(MFSC)和PLP都是支持的
    • Kaldi:开源语音识别工具,C++实现,支持fbank,mfcc,spectrogram,pitch和mel单独实现,做的事情要比htk多,而且工具包有兼容HTK的选项,kaldi在语音特征提取方面更丰富,扩展性更好。
    • W2l:C++实现,支持MFCC和MFSC两种语音特征提取
  • 语音唤醒:在连续语流中实时检测出说话人特定片段(唤醒词),从而启动语音识别模块开始工作
  • 语音识别
    • 短语音识别:60秒以下的音频识别为文字。适用于语音对话、语音控制、语音输入等场景。
    • 实时长语音识别:可以将音频流实时识别为文字,并返回每句话的开始和结束时间,适用于长句语音输入、音视频字幕、会议等场景。
    • 音频文件转写:可以将大批量的音频文件异步转写为文字。适合批量录音质检、会议内容总结、录音内容分析等场景,一般12小时内
  • 语音合成:语音合成可将文字信息转化为声音信息,适
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值