基于子注意融合的多模态抑郁估计

最新推荐文章于 2025-06-06 19:09:24 发布

傅里没有叶

最新推荐文章于 2025-06-06 19:09:24 发布

阅读量539

点赞数 1

分类专栏：文献阅读文章标签：深度学习

本文链接：https://blog.youkuaiyun.com/weixin_50909869/article/details/134416959

版权

文献阅读专栏收录该内容

5 篇文章

订阅专栏

Field：深度学习、神经网络、多模态融合、注意力机制、抑郁症检测

Title：Multi-modal Depression Estimation based on Sub-attentional Fusion

Author：Ping-Cheng Wei, Kunyu Peng

Journal：Springer , Aug 2022

Research context:

文章借用了公共数据集DAIC-WOZ depression database 中的三种数据源——文本text、语音audio和微表情visual数据集，提出了一种基于子注意力机制融合的多模态抑郁检测模型——sub-attentional ConvBiLSTM with AVT modality，该模型在抑郁症检测方面的效果达到了0.89 precision和0.7F1-score。

Method：

1.介绍了抑郁症的现状困境、研究的必要性。提出了研究的模型，基于子注意机制融合多源数据，数据集，对比baseline，以及验证后模型的效果。

多模态的融合是提高抑郁检测的关键点，作者针对三种不同类型的数据源，如上图。输入是三种不同种类的数据，输出则是PHQ-8的数值，由CNN和LSTM的联合作为该模型的主干，来进行特征的提取，经过全连接网络，进行特征图的融合（将特征连接到一起），进而输送到注意力融合模块当中，该模块有八个子注意力模块，分别提取不同的特征，对应八个子分类器，输出八个子PHQ-8分值，刚好对应PHQ-8（量表中8个抑郁检测项目，每一个3分）

3.介绍了模块的组成，各部分，以及音频、文本、视觉方法对抑郁症检测的方法的研究综述

4.模型：

Y是特征级融合，将三个模块提取的feature map连接到一起得到Y，Y经过Conv2D的响应与Y相加，得到X，X分为两路，一路经过逐点卷积（point wise conv）-BN-Relu-point wise conv -BN（BN=batch normalization 批量正则化，加速网络收敛，提高非线性）；另一路则经过全局平均池化（global ave pooling）得到的是一个数值，-point wise conv-BN-Relu-point wise conv -BN。两者相加得到权重w。

同理：