Introduction
此文发表于Speech Communication,影响因子1.768,发表时间2018年
Speech emotion recognition 的 feature representation部分,通常有两种方法。
- hand-crafted feature encoding,如AVEC。(不知道这是个什么)
- 自动学习feature
本文采用 sparse coding framework ,创建 hierarchical sparse coding (HSC) scheme。即本文贡献。
Automatic speech recognition (ASR) system 自动语音识别系统,错误率较高
常用于SER(speech emotion recognition语音情感识别)的特征有:
- pitch
- energy
- rhythm
- spectral coefficients
- statistical variations,如mean, median, skewness(偏度)等
(以上均不知道怎么翻译)
现在希望加入人类听觉系统(human auditory system)相关特征,如下:
- loudness
- accents
- harmonicity
- timbre texture(音色)
- voice quality
简单介绍一下Sparse Coding。简单理解,即用一组向量