这是之前看的一些论文,然后提炼一下可能经常想看到的东西吧。
语音情感识别主要包括语音语料库的采集,语音信号预处理,语音情感特征提取,语音情感分类。以上为语音情感识别主要步骤。
语音情感特征提取(1):
选择和提取合适的语音情感特征对提高识别准确率来说非常重要。目前,对语音信号的特征分析主要包括语音信号数字化,时域和频域的相关分析以及Gabor变换等。常用于语音情感识别研究的声学特征主要有韵律特征,相关谱特征和音质特征,也有一些研究是基于融合特征以及i-vector特征等展开进行的。例如:对于语音信号,提取得到它的韵律特征和MFCC特征等情感特征。
研究表明:语音中所包含的情感特征主要包含两个方面:声学特征以及语言学特征。最能体现说话人情感的信息主要存在于语音信号的韵律特征和音质特征中,韵律特征主要包含:基音频率,基音范围,声道的横截面面积,语音强度和语音速率等,音质特征包含有:共振峰,梅尔频率倒谱系数(MFCC),线性预测系数(LPC)等。
语音情感特征提取(2):
对语音情感特征提取,主要考虑了语音的短时韵律特征,频谱特征以及其它有关的统计学相关的特征,例如典型的语音情感特征是基音频率,基音范围,共振峰,声道的横截面面积,梅尔频率倒谱系数,语音强度和语音速率等。还有另外一些语音情感特征,比如共振峰,声道的横截面面积,梅尔频率倒谱系数,Teager能量算子等,这些特征人们不能直观地感受到,但是这些特征对人类情感的识别也有着至关重要的作用。
韵律特征的提取:
在进行语音情感特征的提取之前,往往需要对语音信号进行预处理,预处理的措施主要有:滤波,降噪,预加重,分帧,加窗等。对于语音信号来说,有用的信息多集中在某些频段,所以可以先将其经过滤波已去除掉一些无用的频段。接着通过一个响应函数为一阶有限激励响应的高通滤波器。
MFCC特征的提取:
在语音处理过程中,梅尔频率倒谱是一种语音短时功率谱,而梅尔频率倒谱系数就是由一系列完整组成梅尔频率倒谱的系