语音信号特征提取<二>时域特征(待续)
事实上,因为语音信号的大多数处理都是在组帧之后进行的。组帧之后,帧序号就代表了时间先后。所以没有多少特征可以在时间域进行提取。常见的几个时域特征分别是:幅值、过零率以及直流偏置、能量以及线性预测编码系数。
- 幅值(Amplitude)
- 过零率(ZCR)&过均值率率(MCR)
- 能量(Energy)
线性预测编码系数(LPCC)
具体计算方法如下:- 幅值(Amplitude)
每一个声道的语音序列都是以关于0对称的,分布在[-1,1]之间的浮点数。通常会关注一段语音幅值的最大、最小值的绝对值,平均值等等。 - 过零率(ZCR)&过均值率(MCR)
ZCR和MCR与语音信号的高频内容关系比较密切。
ZCR,就是过零率(zero crossing rate)。它表示在单位时间内(通常是1s)语音幅值的符号变化次数。计算方式如下(伪代码):
- 幅值(Amplitude)
for i=1:1:fs-1
if sign(x(i-1)*x(i))==1 & x(i)!=0
c=c+1;
else if x(i)==0 & sign(x(i-1)*x(i+1)==1
c=c+1;
end
ZCR=c;