基于语音的情感与醉酒状态识别技术研究
在当今科技飞速发展的时代,人类与机器的交互日益频繁,语音作为一种重要的交互方式,其背后蕴含的情感信息以及说话者的状态信息(如是否醉酒)的识别变得愈发重要。本文将深入探讨语音情感识别(SER)以及基于语音判断醉酒状态的相关技术,重点介绍一种新型的特征提取技术——线性频率残差倒谱系数(LFRCC),并分析其在SER任务中的应用效果。
1. 研究背景与动机
随着技术的进步,人类对机器的依赖程度不断增加,可靠的情感检测对于实现成功的人机交互至关重要。语音情感识别(SER)应运而生,其应用场景广泛,包括自动驾驶中的驾驶员行为监测、呼叫中心服务、患者监测、心理健康问题检测以及改善人机交互等。
语音信号的产生主要涉及两个关键组件:激励源和声道系统。声道是一个具有惯性的自然物理系统,需要外部激励源才能改变其状态。在实际应用中,声门活动和声门振动是主要的激励源,但无振动也可以作为驱动力来激发声道系统产生可理解的语音。
在以往的研究中,韵律和基于系统的特征在SER研究中受到了较多关注,而探索语音中的激励源信息相对较少。这一局限性促使我们在本研究中采用线性频率残差倒谱系数(LFRCC)。
2. 线性预测(LP)原理
线性预测(LP)方法最初应用于语音编码,其灵感来源于系统识别和控制领域。在LP分析中,每个语音样本由过去“p”个语音样本的线性组合表示,“p”为线性预测的阶数,组合的权重称为线性预测系数(LPCs)。
设当前语音样本为s(n),预测样本可表示为:
$\hat{s}(n) = - \sum_{k=1}^{p} a_k s(n - k)$
其中
超级会员免费看
订阅专栏 解锁全文
9

被折叠的 条评论
为什么被折叠?



