1 情感语音库
Belfast 英语情感数据库,是由Queen 大学对40 位录音人(18~69 岁,20 男20 女)的5 种情感(生气、悲伤、高兴、恐惧、中性)进行演绎得到的,每个段落包括7~8 个句子。
每条语音的命名的各位置对应的含义:
- Positions 1-2: 人的性别及年龄
- Positions 3-5: 对应的文本代码
- Position 6: 文本情感:A:害怕,F:高兴,N:中性,T:悲伤,W:生气
- Position 7: 不同朗读版本:a,b,c,d
例如:03a01Fa.wav:由03号朗读者朗读a01对应的文本,情绪为高兴“Freude” (Happiness).
2 特征提取
2.1 短时能量及其衍生参数
主要用途:区分清音段和浊音段(浊音的E(i)值比清音的E(i)值大);区分声母和韵母的分界和无话段与有话段的分界
具体内容可参考:阿木:语音识别 02 语音信号的时域、频域特性和短时分析技术
短时能量: En=∑m=0N−1xn2(m)
y1=ys(1:L);
s1=enframe(y1,hamming(256),128);
[nframe1,~]=size(s1);
E=zeros(1,nframe1);
for i=1:nframe
Z(i)=sum(abs(sign(s(i,framesize:2)-s(i,framesize-1:1))))/2; % 过零率 %
end
for i=1:nframe1
E(i)=sum(s1(i,:).*s1(i,:)); % 短时能量 %
end
短时抖动能量: Es=1M−1∑n=1M−1|En−En+1|1M∑n=1MEn×100
x=0;
t=0;
for i=1:(nframe1-1)
t=abs(E(i)-E(i+1))/(nframe1-1);
x=x+t;
end
E_shimmer=x/mean(E); % 这里感觉要乘100,不过都不乘100的话就不影响该特征的对比
短时能量的线性回归系数: Er=∑n=1Mn·En−1M∑n=1Mn·∑n=1MEn∑n=1Mn2−1M(∑n=1Mn)2
x1=0;x2=0;x3=0;x4=0;
for i=1:nframe1
t1=i*mean(E);
t2=i*E(i);
t3=i*i;
t4=i;
x1=x1+t1;
x2=x2+t2;
x3=x3+t3;
x4=x4+t4;
end
x4=x4*x4/nframe1;
s1=x2-x1;
s2=x3-x4;
E_Reg_coff=s1/s2;
短时能量的线性回归系数均方误差: Ep=1M∑n=1M(En−(μ1−Er−μn)−Er·n)2
其中, μn=1M∑n=1Mn
x=0;