基于机器学习的多模态抑郁症检测
1. 数据处理与特征提取
在处理数据时,我们将各类信息包含在每条推文中,然后汇总每个用户的推文数量,以得到每个用户的摘要。同时,对用户的三种表达特质进行了总结,即更积极、中立和消极表达。
为了从用户推文中提取潜在主题的分布,我们采用了无监督线性判别分析(LDA)方法。虽然存在非参数贝叶斯控制策略,但我们选择了这种简单、流行且有效的方法来达成研究目标。
另外,我们还关注了症状特征,也就是推文中出现的抑郁症状数量。具体操作如下:
1. 挑选出各种抑郁症状的关键词。
2. 通过整合与抑郁相关的各类词汇来扩充关键词列表。
3. 统计所有推文中关键词的重复次数。
2. 混合深度学习模型
2.1 模型概述
我们获取每个用户的准备信息作为集成网络,同时每个用户还有一个76维的整数向量来表示多模态(MM)特征。在此基础上,我们提出了一个基于卷积神经网络(CNN)的50/50模型,该模型结合了双向门控循环单元(BiGRU),用于通过在线媒体识别抑郁情况,其性能与单个向量的地址相关,包括在Sigmoid激活层中进行预测。
2.2 卷积神经网络(CNN)
CNN能够高效地学习强大、合理且持久的描述。我们利用CNN来提取用户语义推文的优势。具体设置为:将每个用户句子的大小设定在0到1000个单词之间,并且每个用户只取10条推文的平均值。输入层通过三个常规层与卷积层相连,以学习与单词顺序相关的n - 元特征,从而捕捉重要的语义内容,这是基于模式的词包通常无法做到的。
超级会员免费看
订阅专栏 解锁全文
30

被折叠的 条评论
为什么被折叠?



