语音情感基座模型emotion2vec

文章介绍了上海交通大学等机构联合开发的emotion2vec模型,一种自监督预训练的语音情感表征模型,通过结合句子和帧级别损失,提升了情感理解和泛化能力,广泛应用于客服、智能助手和情感健康等领域,其在多项情感任务上超越现有技术,展示了强大的情感特征提取能力。

在语音技术领域,准确理解用户的语音指令和意图是构建高效人机交互系统的基础。一个高品质的语音交互系统不仅需要理解字面上的语言内容,更应捕捉到说话者语音中蕴含的情感信息。这正是语音情感识别(SER)技术要解决的问题:通过分析语音的声调、节奏、强度等副语言学信息,来判断说话者的情感状态,从而实现对人类意图的更真实和自然的理解。

技术亮点:

一、SOTA效果的通用语音情感表征模型emotion2vec

二、开源语音情感识别基座模型

情感识别技术可以应用于各种场景,例如客服机器人可以根据客户语气的焦急程度调整其响应策略,智能助手可以根据用户情绪的变化提供更符合心理需求的建议,情感健康应用可以监测和支持用户的情感状态。

在此背景下,上海交通大学、阿里巴巴、复旦大学香港中文大学的研究者们联手开发了一个通用的语音情感表征模型emotion2vec [1]。这一模型利用自监督学习方法,在大量无标记的公开情感数据上进行预训练,成功地学习到了高度通用的语音情感特征。在多种语言和不同场景的数据集上测试表明,emotion2vec在多种情感任务上的表现超越了现有的最先进技术。emotion2vec的推出,为众多场景中的情感理解提供了强大的技术支持,有望极大地提升用户体验和满意度。

基于emotion2vec,研究者们进一步训练了一个语音情感识别基座模型。具体来说,首先使用语音情感识别学术数据集fine-tune emotion2vec,然后对15万小时中英数据进行标注,筛选文本情感与语音情感相同,并且置信度高的数据(超过1万小时)再次fine-tune emotion2vec,获得该版本权重。相对以往工作,通过迭代训练和大幅度提升数据量,该模型可以作为语音情感识别的基座模型,目前已经开源,在线体验demo已经在modelscope上线。

emotion2vec通用语音情感表征模型👇: 

https://www.modelscope.cn/models/iic/emotion2vec_base/summary

emotion2vec语音情感识别基座模型在线体验👇:

https://www.modelscope.cn/models/iic/emotion2vec_base_finetuned/summary

论文链接👇:

https://arxiv.org/abs/2312.15185

开源代码仓库👇:

https://github.com/ddlBoJack/emotion2vec

研究问题

在人工智能领域,从语音中提取情感表现是诸如语音情感识别(SER)和情感分析等情感相关任务的基础步骤。传统的方法通常使用滤波器组(FBanks)或梅尔频率倒谱系数(MFCCs)作为语音特征,但这些特征在语义信息方面的表达是有限的,因此在情感任务上表现有限。为了改进性能,流行的方法转向利用基于语音的自监督学习(SSL)预训练模型提取的特征,这确实在一定程度上带来了显著的性能提升。

然而,一个潜在的挑战是现有的SSL模型并不完全适用于情感任务。先前的研究尝试对SSL模型进行无微调、部分微调和全部微调来适应SER任务,并在IEMOCAP数据集上得出了一些经验性结论。这种方法是一种临时的解决方案,因为,一方面,对SSL模型进行微调需要大量的计算成本;另一方面,这些结论可能特定于数据或受到模型限制。

最近有研究者提出了Vesper [2]的SER模型,该模型通过WavLM-large模型在情感数据中蒸馏得到。Vesper专门设计用于执行SER任务,但其通用表示能力仍有待验证。因此,迫切需要一种通用的基于语音的情感表示模型,以支持在多样化情感任务中提取语音特征。

为了应对这一挑战,我们提出了emotion2vec,这是一种通用的情感表示模型。它通过在262小时的开源情感数据上进行自监督预训练,并使用在线蒸馏范式来获得。鉴于音频中全局信息和局部细节都能表达情感,我们提出了一种结合句子级损失和帧级损失的预训练

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值