语种识别之音频处理

基本原理:

    语种识别,根据一段音频判断该音频是英语、中语还是法语,即判断音频的语种。语种识别项目的整体思想就是把语音数据转换成相应的语谱图或者MFCC特征,再对特征进行分析,从而判断出该语音数据的语种类别。
公开数据集:
    Topcoder 竞赛 数据(44.1khz 的 mp3 录音,每条 10 秒,176 种语言合计 66176(176*376)条数据,诸多小语种),网址如下。
    东方多语种语音识别竞赛 数据(海天瑞声提供 7 种东方语种数据+8 种外语语种数据,列明的包括粤语/国语/印尼语/日语/俄语/韩语,清华大学提供越南语/哈萨克语/藏语/维吾尔语)网址如下
 

基本音频处理流程:

    语音输入,然后音频信号特征提取,然后进行特征分析处理,最终得到结果,其中音频特征提取多半采用频谱图或者MFCC特征。

详解

语音输入:
wav(波形音频文件)mp3 文件或是麦克风中输入的音频信号输入音频
音频信号特证提取:
    语音信号处理的目的是弄清语音中各个频率成分的分布。常用的数学工具是傅里叶变换,而傅里叶变换要求输入信号是平稳的,需要对语音信号进行分帧处理,截取出来的一小段信号(通常 20-30ms)就叫一帧。【微观里断定输入信号是平稳的】
    语音分帧→每一帧分别 FFT( 离散傅立叶变换) →求取 FFT 之后的幅度/能量,这些数值都是正值,类似图像的像素点,显示出来就是语谱图。
    其中语谱图的 x 是时间,y 轴是频率。利用语谱图可以查看指定频率端的能量分布。MFCC( https://blog.youkuaiyun.com/zouxy09/article/details/9156785 )是最常用的声学特征参数。原理将音频转化为梅尔频率,然后进行倒谱分析。

未完待续

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值