Field:深度学习、神经网络、多模态融合、注意力机制、抑郁症检测
Title:Multi-modal Depression Estimation based on Sub-attentional Fusion
Author:Ping-Cheng Wei, Kunyu Peng
Journal:Springer , Aug 2022
Research context:
文章借用了公共数据集DAIC-WOZ depression database 中的三种数据源——文本text、语音audio和微表情visual数据集,提出了一种基于子注意力机制融合的多模态抑郁检测模型——sub-attentional ConvBiLSTM with AVT modality,该模型在抑郁症检测方面的效果达到了0.89 precision和0.7F1-score。
Method:
1.介绍了抑郁症的现状困境、研究的必要性。提出了研究的模型,基于子注意机制融合多源数据,数据集,对比baseline,以及验证后模型的效果。
2.
多模态的融合是提高抑郁检测的关键点,作者针对三种不同类型的数据源,如上图。输入是三种不同种类的数据,输出则是PHQ-8的数值,由CNN和LSTM的联合作为该模型的主干,来进行特征的提取,经过全连接网络,进行特征图的融合(将特征连接到一起),进而输送到注意力融合模块当中,该模块有八个子注意力模块,分别提取不同的特征,对应八个子分类器,输出八个子PHQ-8分值,刚好对应PHQ-8(量表中8个抑郁检测项目,每一个3分)
3.介绍了模块的组成,各部分,以及音频、文本、视觉方法对抑郁症检测的方法的研究综述
4.模型:
Y是特征级融合,将三个模块提取的feature map连接到一起得到Y,Y经过Conv2D的响应与Y相加,得到X,X分为两路,一路经过逐点卷积(point wise conv)-BN-Relu-point wise conv -BN(BN=batch normalization 批量正则化,加速网络收敛,提高非线性);另一路则经过全局平均池化(global ave pooling)得到的是一个数值,-point wise conv-BN-Relu-point wise conv -BN。两者相加得到权重w。
同理:
5.技术方法
(1)MUSDL 硬标签转化成软标签,软决策
(2)SAM 二阶优化技术
6.该模型是将一个人的完整信息(AVT)slice成n个clip片段作为输入,每一个片段对得到一个子PHQ-8的分数值,所有的clip得出后,取其平均值,将大于平均值的clip定义为抑郁,反之为非抑郁,比较抑郁和非抑郁clip的多少来判断患者抑郁与否,Binary的值0或1
7.实验结果
(1)文章利用不同的模态组合来对比结果
(2)采用不同方法的融合
三种组合的效果最好
(3)有无性别偏见对实验模型的影响
总体:实验结果
Furthermore, one can perceive that there is even a performance improvement of around 2.5% accuracy
and 0.05 F1 score in our best model, Sub-attentional ConvBiLSTM.
准确度在baseline的基础上提高了2.5%,F1-score提高了0.05
85.11% for accuracy, 0.89 for precision, 0.70 for f1-score
Goodness:提出了一种融合多模态的模型,并且采用注意力融合的方法来进行抑郁症检测,根据PHQ-8量表的判断规则将抑郁症等级进行分类(>10定义为抑郁者)
文章还介绍了对数据的处理方法,数据集存在的问题以及文章的解决方法:
对于语音数据,使用窗口滑动技术来将语音数据集进行切片,以此来扩大数据集,提高模型的性能
附:PHQ-8量表