论文阅读Hierarchical sparse coding framework for speech emotion recognition

本文提出了一种用于语音情感识别的分层稀疏编码(HSC)框架,结合人类听觉系统特征,如响度、音调和音色。通过全局描述符提取层和稀疏编码层,利用MFCC等特征进行表示,实验表明在VAM-Audio和AVEC2012数据库上,模型在情绪识别中表现出色。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Introduction

  此文发表于Speech Communication,影响因子1.768,发表时间2018年
  Speech emotion recognition 的 feature representation部分,通常有两种方法。

  • hand-crafted feature encoding,如AVEC。(不知道这是个什么)
  • 自动学习feature

  本文采用 sparse coding framework ,创建 hierarchical sparse coding (HSC) scheme。即本文贡献。

  Automatic speech recognition (ASR) system 自动语音识别系统,错误率较高

   常用于SER(speech emotion recognition语音情感识别)的特征有:

  • pitch
  • energy
  • rhythm
  • spectral coefficients
  • statistical variations,如mean, median, skewness(偏度)等

(以上均不知道怎么翻译)

   现在希望加入人类听觉系统(human auditory system)相关特征,如下:

  • loudness
  • accents
  • harmonicity
  • timbre texture(音色)
  • voice quality

  简单介绍一下Sparse Coding。简单理解,即用一组向量

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值