论文阅读:Semantic Similarity Models for Depression Severity Estimation 抑郁症严重程度估计的语义相似度模型

论文出处:EMNLP 2023 conference (CCF B)

标题

Semantic Similarity Models for Depression Severity Estimation

抑郁症严重程度估计的语义相似度模型

摘要

抑郁症在全世界构成了一个严重的公共卫生问题。然而,公共卫生系统发现和诊断病例的能力有限。在这方面,社交媒体的广泛使用开辟了大规模获取公共信息的途径。通过利用这些用户生成的社交媒体内容,计算方法可以作为快速筛选(抑郁症)的支持工具。基于个人的社交媒体写作,本文提出了一种有效的语义管道来研究他们的抑郁严重程度。我们选择测试用户句子(测试集),在与抑郁症状和严重程度相对应的代表性训练句子(训练集)的索引上生成语义排名。然后,我们使用这些排名结果中的句子作为预测症状严重程度的证据。为此,我们探索了不同的聚合方法,从贝克抑郁量表(BDI-II)中每个症状的四个选项中选出一项作为回答。我们在两个基于Reddit的基准上评估了我们的方法,在测量抑郁水平方面取得了进步。

1.引言

据保守估计,大约三分之二的抑郁症病例仍未得到诊断(Epstein et al, 2010)。为了帮助解决这个问题,政府和机构已经启动了提高公民心理健康意识的项目(Arango等人,2018)。在这种情况下,在早期阶段发现这些疾病,并接受适当的治疗,对减少其影响和病例升级至关重要(Picardi等人,2016)。然而,公共卫生系统资源不足严重限制了它们发现和诊断病例的能力。

作为公共卫生系统的替代方案,社交平台是一个很有前途的渠道,可以以不引人注目的方式评估风险(De Choudhury et al., 2013),人们倾向于将这些平台视为表达自己感受和担忧的舒适媒体(Chancellor and De Choudhury,2020)。利用这类用户生成的内容,NLP技术在识别抑郁模式和语言标记(Rissola et al.,2021)方面显示出了很有前景的结果。由于心理健康检测模型越来越流行,社区也产生了不同的数据集(Yates等人,2017;Cohan等人,2018),其中互联网早期风险预测(eRisk ) (Crestani et al.,2022)和计算语言学和临床心理学(CLPsych)(Zirikly et al.,2022)是该领域最受欢迎的两个基准。他们制定任务定义、数据集和评估方法,以鼓励这一领域的研究。

从社交媒体帖子中识别抑郁症面临着将其融入临床环境的挑战(Walsh et al.,2020)。先前的研究将这项任务表述为一个二元分类问题(即抑郁用户与对照用户)(Rfssola et al.,2021)。尽管在这种设置下取得了令人鼓舞的结果,但忽略不同程度的抑郁限制了优先考虑高风险用户的能力(Naseem et al, 2022)。此外,大多数现有方法都侧重于使用工程特征,这可能比其他临床标记更难以解释2,例如已识别的抑郁症状的整合(Mowery等,2017)。同样,深度学习模型的黑箱特性也限制了理解其决策的能力,尤其是对临床医生这样的领域专家而言。

在本文中,我们使用语义特征对抑郁症的严重程度进行了细粒度分析,以检测症状标记的存在。我们的方法通过自动填写贝克抑郁量表BDI-II(Dozoiset al.,1998)(一种用于测量抑郁症的问卷)来遵守公认的临床方案。BDI-II包括21种公认的症状,如悲伤、疲劳或睡眠问题。每种症状都有四个选项可供选择,严重程度从0到3不等。使用基于句子的管道,我们构建了21个不同的症状分类器,用于估计用户对所述症状的作答。为此, 我们采用了与抑郁水平相关的eRisk 数据集。在我们的管道中,我们探索了选择算法,以过滤用户文章中与BDI-II症状相关的句子。过滤后,我们将这些训练句子与用户作答的标签(0-3)进行索引,作为不同严重程度的人如何谈论症状的例子。然后,为了预测用户的回答,我们选择他们的相关句子用作查询,在训练句子索引上产生语义排名(评级)。最后,我们构建了两种聚合方法,根据排名(评级)结果来估计症状的严重程度。

这项工作的主要贡献是︰1)我们提出了一个语义检索管道,对抑郁症状的严重程度进行细粒度分类。基于BDI-II涵盖的症状,我们的方法还能根据不同的抑郁症严重程度,区分低风险和高风险。2)我们提出了一种数据选择过程,使用一系列无监督和半监督的选择策略来过滤与抑郁症状相关的句子。3)实验使用我们管道的不同变体,在两个eRisk 数据集上都取得了显著的结果,优于现有的抑郁程度判别技术。

2.相关工作

许多研究使用工程特征,从不同的社交平台上识别与精神障碍相关的语言标记和模式。例如,配备了心理类别的LIWC写作分析工具揭示了抑郁症患者和对照组在写作风格上的显著差异。其他研究使用抑郁和情绪词汇来确定抑郁标记(Cacheda等人,2019),而Trotzek等人(2018)研究了其他显著特征,利用个人资料元数据(例如发布时间或帖子长度)和社交活动来检查个人的精神状态。

情境嵌入的最新进展显著影响了许多与自然语言处理相关的任务,包括社交媒体中的抑郁检测。这些深度学习模型在不同数据集上的表现一直优于工程特征(Jiang等人,2020;Nguyen et al, 2022)。然而,它们缺乏可解释性,而这又是临床医生所需要的(Amini和Kosseim, 2020)。为了增强可解释性,基于对BDI-II症状反应的预测,研究人员向eRisk抑郁估计共享任务提交了他们的工作(urban和Rosso, 2020;Spartalis等,2021;Basile et al, 2021)。在本研究中,我们使用了eRisk收集的数据,并遵循相同的评估方法。与这些方法相反的是,我们的方法强调了导致每个症状决策的用户帖子,这可能有助于对模型预测结果的进一步检查。

除了提交给eRisk的作品外,最近还有两项研究探索了使用抑郁症状来筛选社交媒体帖子的方法。Zhang等(2022a)将不同问卷的症状汇总到基于bert的模型中,计算帖子层面的症状风险。Nguyen等人(2022)试验了各种使用症状标记来检测抑郁症的方法,证明了他们有潜力提高其方法的泛化性和可解释性。在这项研究中,作者考虑了PH9Q问卷中的症状(Kroenke et al, 2001)来定义基于手动模式的策略,并在帖子层面训练症状分类器。

两种方法都使用二元分类设置来制定方法,而我们的方法考虑不同的严重性级别。我们的不同之处在于,我们预先计算了训练博文的密集表示,而不是依赖于预训练的语言模型,这在许多实际情况下可能很慢(Reimers和Gurevych, 2019)。我们的方法只需要少量的博文编码和余弦相似度计算,提高了我们的解决方案的效率。

3.方法

问题定义我们的目标是根据用户社交媒体帖子的写作历史(WH)来估计他们的抑郁症严重程度。我们根据BDI-II评分(Lasa et al.,2000)的临床分类模式来定义抑郁症的严重程度。该分数是本问卷所涵盖的21种症状的得分总和每个症状的四个选项对应不同的抑郁程度。表1显示了这些程度划分。

表1:与BDI-II得分相关的抑郁水平

我们构建了21个不同的症状分类器(即每个BDI-II症状对应一个分类器),而不是依赖一个唯一的分类器来计算分

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值