语音情感与面部识别技术解析
语音情感识别
语音情感识别在自然交互和智能服务领域具有重要意义。传统方法存在一定局限性,如Deng等人提出的方法虽有较好的情感分类率,但在连续变化的情感识别上表现滞后;Badshah等人的模型因使用最少标注数据训练,难以确保正确的情感识别。
MFCC模型特征提取
MFCC(Mel频率倒谱系数)是基于人类听觉能力计算的,用于提取语音信号中识别情感所需的不同特征。其特征提取过程如下:
1. 预处理 :对所有.wav格式的语音文件,以16k样本的采样频率确定每个文件的强度,通过加权平均和零填充使所有文件长度一致。
2. 预加重 :将语音信号通过滤波器,增加信号能量,提供更多数据。
3. 分帧 :将语音信号划分为20 - 40ms的帧,确保语音大小一致,虽语音信号非平稳,但短时间内可视为平稳信号。
4. 加窗 :在分帧后进行,减少每帧开始和结束处的语音信号不一致性,帧移动范围为10ms,使每帧包含前一帧的部分内容。
5. FFT :将所有帧从时域转换为频域,得到频率谱,用于发现特定帧中存在的所有频率。
6. Mel尺度通道银行 :将每帧语音信号通过20 - 30个三角滤波器,确定给定帧中的能量,普通频率X和Mel尺度Y的关系为:$Y = 2595 * log(1 + X/700)$。
7. 对数函数 :基于人类听力能力,在确定
超级会员免费看
订阅专栏 解锁全文
26

被折叠的 条评论
为什么被折叠?



