语音信号处理过程的总体结构:
语音输入-->预处理-->数字化-->特征提取
预处理:对信号适当放大和增益控制,并进行反混叠滤波来消除工频信号干扰
数字化:进行A/D转换
特征提取:用反映语音信号特点的若干参数来代表语言
共振峰:当把声道看成一个发音的腔体的时候,激励的频率达到他的固有频率,则声道会以最大的振幅来振荡,即产生共鸣,这个频率称为共振频率(formant frequency),简称共振峰(formant)
语音信号分析分为时域、频域、倒谱域
时域分析优点:简单直观、清晰易懂、运算量小、物理意义明确
常用的频域分析方法有带通滤波器组方法、傅里叶变换方法和线性预测分析法
频谱分析方法优点:频谱对外界环境变化具有一定的顽健性。利用频域分析获得语音特征具有实际的物理意义。如:共振峰参数、基音周期等参数
倒谱域是将对数功率谱进行反傅里叶变换后得到的
语音信号分析分为模型分析法和非模型分析法。
模型分析法:依据语音信号产生的数学模型,来分析和提取表征这些模型的特征参数:共振峰模型分析和线性预测分析
语音信号数字化
数字化之前,必须进行防混叠滤波及防工频干扰滤波。防混叠滤波指滤除高于1/2采样频率的信号成分或噪声,是信号带宽限制在某个范围内,否则产生频率混叠;工频干扰指50Hz的电源干扰。