02 语音情感识别数据集及特征提取

1 情感语音库

Belfast 英语情感数据库,是由Queen 大学对40 位录音人(18~69 岁,20 男20 女)的5 种情感(生气、悲伤、高兴、恐惧、中性)进行演绎得到的,每个段落包括7~8 个句子。

每条语音的命名的各位置对应的含义:

  • Positions 1-2: 人的性别及年龄

  • Positions 3-5: 对应的文本代码

  • Position 6: 文本情感:A:害怕,F:高兴,N:中性,T:悲伤,W:生气

  • Position 7: 不同朗读版本:a,b,c,d

例如:03a01Fa.wav:由03号朗读者朗读a01对应的文本,情绪为高兴“Freude” (Happiness).

2 特征提取

2.1 短时能量及其衍生参数

主要用途:区分清音段和浊音段(浊音的E(i)值比清音的E(i)值大);区分声母和韵母的分界和无话段与有话段的分界

具体内容可参考:阿木:语音识别 02 语音信号的时域、频域特性和短时分析技术

短时能量: En=∑m=0N−1xn2(m)

y1=ys(1:L);
s1=enframe(y1,hamming(256),128); 
[nframe1,~]=size(s1);
E=zeros(1,nframe1);  
for i=1:nframe
    Z(i)=sum(abs(sign(s(i,framesize:2)-s(i,framesize-1:1))))/2;  %  过零率  %
end
for i=1:nframe1
    E(i)=sum(s1(i,:).*s1(i,:)); %  短时能量  %
end

短时抖动能量: Es=1M−1∑n=1M−1|En−En+1|1M∑n=1MEn×100

x=0;
t=0;
for i=1:(nframe1-1)
    t=abs(E(i)-E(i+1))/(nframe1-1);
    x=x+t;
end
E_shimmer=x/mean(E); % 这里感觉要乘100,不过都不乘100的话就不影响该特征的对比

短时能量的线性回归系数: Er=∑n=1Mn·En−1M∑n=1Mn·∑n=1MEn∑n=1Mn2−1M(∑n=1Mn)2

x1=0;x2=0;x3=0;x4=0;
for i=1:nframe1
    t1=i*mean(E);
    t2=i*E(i);
    t3=i*i;
    t4=i;
    x1=x1+t1;
    x2=x2+t2;
    x3=x3+t3;
    x4=x4+t4;
end
x4=x4*x4/nframe1;
s1=x2-x1;
s2=x3-x4;
E_Reg_coff=s1/s2;

短时能量的线性回归系数均方误差: Ep=1M∑n=1M(En−(μ1−Er−μn)−Er·n)2

其中, μn=1M∑n=1Mn

x=0;
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值