本次分享华南理工大学、优必选研究院等合作在ICASSP2023会议发表的论文《DST: Deformable Speech Transformer for Emotion Recognition》。该论文提出一个可变形的Transformer结构来对语音情感信号进行建模,能够自适应地发现并关注到语音信号中有价值的细粒度情感信息。
论文地址:https://arxiv.org/abs/2302.13729
代码仓库:https://github.com/HappyColor/DST
0 Abstract
得益于多头自注意机制,Transformer在语音情感识别(Speech Emotion Recognition, SER)领域取得了令人瞩目的成果。与原始的全局注意机制相比,基于局部窗口的注意机制在学习细粒度特征方面更加有效,同时可以极大降低模型的冗余度。然而,情感信息是以多粒度的方式存在的,预先设定的固定窗口会严重降低模型的灵活性。此外,人们难以得到最优的窗口设置。针对上述问题,本文提出一个可变形的Transformer结构来对语音情感信号进行建模,记作DST(Deformable Speech Transformer)。DST可以通过一个轻量的决策网络,根据输入语音的特性动态决定注意机制中的窗口大小。同时,我们引入一个与输入语音信号相关的偏移量来调整注意力窗口的位置,使DST能够自适应地发现并关注到语音信号中有价值的情感信息。我们在IEMOCAP和MELD数据库上进行的大量实验,证明了DST的优越性。
1 Introduction
由于情感是区分人类和机器最基本的特征之一且语音是日常交流中最基本的工具,因此,通过语音信号分析人类的情感状态是研究界所重点关注的研究方向。由于深度学习的快速发展,许多模型已被提出并在语音情感识别方向取得不错的效果。其中,卷积神经网络、循环神经网络及其变体已被广泛研究和应用在实际生活中。
Transformer是近年来广受关注的新架构,并在深度学习领域大放异彩。与以往的模型不同,Transformer采用图1(a)中的全局注意机制学习输入信号的全局表征。尽管Transformer在SER中的有效性已经得到证实,但在使用Transformer进行情感分析时,仍有几个关键点需要特别注意:1)情感信息是多粒度的,这意味着除了语言信号的全局表征,语音中的细节信息也很重要。语言的局部特征,如清晰度和延音,也与情感状态高度相关。2)全局注意机制模式固定,缺乏多样性,不足以捕捉多粒度的情感特征。3)全局注意机制的计算量大,计算冗余,应用时对硬件的要求高。

DST是一种新的Transformer架构,用于语音情感识别,能自适应地调整注意窗口大小和位置,捕捉多粒度情感信息。对比实验显示DST在IEMOCAP和MELD数据集上优于其他注意机制,证明了其优越性和灵活性。
最低0.47元/天 解锁文章
622

被折叠的 条评论
为什么被折叠?



