电子健康记录中神经症状标注的一致性研究

摘要

从电子健康记录中提取以自由文本记录的患者体征和症状对精准医学至关重要。一旦提取,体征和症状可以通过映射到本体论中的概念而变得可计算。从自由文本中提取体征和症状既繁琐又耗时。先前的研究表明,临床概念提取的评分者间一致性较低。我们研究了在电子健康记录临床笔记中标注神经学概念的评分者间一致性。经过标注过程、标注工具和支持性神经本体论的培训后,三名评分者在三轮中标注了15份临床笔记。三名标注者在文本跨度和类别标签方面表现出高度一致性。基于卷积神经网络的机器标注器与人工标注者具有高度一致性,但低于人工评分者间的一致性。我们得出结论,通过适当的培训和标注工具,人工标注者之间可以实现高度一致性。此外,更多的训练示例结合神经网络和自然语言处理的改进,应能使机器标注器实现高通量自动临床概念提取,并与人工标注者保持高度一致性。

引言

从电子健康记录中提取医学概念是精准医学的关键。患者的体征和症状(患者表型的一部分)通常以自由文本形式记录在病程记录、入院记录和出院摘要中。患者的临床表型分析涉及将自由文本映射到本体论中定义的术语概念。这是一个两步过程,包括在叙述中识别适当的文本跨度,然后将文本跨度转换为本体论中的目标概念。将自由文本映射到本体论中定义类别的过程被称为规范化。

在此示例中,标注者突出术语"ataxic",然后将其映射到概念"ataxia",并检索UMLS代码CUI C0004134。这对人工标注者来说是一个缓慢且容易出错的过程。临床文本标注的人工评分者间一致性通常较低。一项关于三家专业编码公司编码员之间SNOMED CT代码一致性的研究显示,精确匹配的一致性约为50%,经过近似匹配调整后一致性略高。另一项关于眼科笔记SNOMED CT编码的研究显示,评分者间一致性水平较低,范围在33%至64%之间。编码者之间不一致的来源包括人为错误(缺乏适用的医学知识、未识别概念缩写和一般粗心)、标注指南缺陷(规范不足和指南不清晰)、本体论缺陷(编码概念的多义性)、界面术语问题(临床术语分类不一致)和语言问题(由于使用省略、指代、转述和其他语言概念导致的解释困难)。

高通量表型分析的目标是使用自然语言处理自动化标注过程。高通量临床概念提取的方法包括基于规则的系统、传统机器学习算法、深度学习算法以及结合算法的混合方法。基于规则、语言分析和统计模型的概念提取工具(如cTAKES和MetaMap)的准确率和召回率通常在0.38至0.66之间。神经网络正被用于概念识别,并取得越来越大的成功。Arbabi等人开发了一种卷积神经网络,能够以高精度将输入短语与人类表型本体论中的概念匹配。其他深度学习方法,包括基于转换器双向编码器表示的神经网络,在自动临床概念提取方面显示出潜力。

在本文中,我们研究了电子健康记录笔记中神经学概念文本跨度识别的评分者间一致性。除了人工标注者之间的一致性外,我们还研究了人工标注者与基于卷积神经网络的机器标注器之间的一致性。

方法

标注工具

使用Prodigy标注电子健康记录医师笔记中的神经学概念。Prodigy在macOS、Windows或Linux的终端模式下运行,并创建本地Web界面。作为输入,Prodigy要求将自由文本转换为JSON格式。

JSON文件的每一行文本作为单独的屏幕出现在Prodigy中进行标注。标注存储在SQLite数据库中,并可导出为带有标注和文本跨度的JSON文件。Prodigy与spaCy自然语言处理工具包集成,可以训练神经网络进行命名实体识别和文本分类。

使用Kappa统计量评估三名标注者和神经网络之间的一致性。Kappa统计量校正了观察到的评分者一致性中的偶然一致性。其范围从0到1,其中1表示完全一致,0表示偶然一致。Kappa值0.6至0.79被认为实质性一致,0.8至0.90之间被认为强一致,超过0.90被认为几乎完美一致。对于每个有一处或多处标注的文本行,如果两位标注者一致,则标注一致性评为1;如果标注者不一致,则评为0。两位标注者均无标注的文本行一致性评为1。两位评分者A和B的Kappa统计量考虑的标注总数为(A∪B+无标注)。

评分者培训和说明

三名标注者参与了研究。标注者1是资深神经科医生,标注者2是神经科学专业的医学预科生,标注者3是三年级医学生。评分者首先回顾了神经学概念神经本体论中的神经学体征和症状,然后被指示在神经学笔记中查找所有神经学概念。标注体征和症状(共济失调、疲劳、无力、记忆丧失等),但不标注疾病实体(阿尔茨海默病、多发性硬化症等)。评分者标注神经学概念,忽略偏侧性和其他修饰语(例如,右臂疼痛标注为手臂疼痛,严重背痛标注为背痛等)。此外,标注者用类别标签标记每个文本跨度。类别标签包括单字词(单概念词如共济失调)、双字词(双概念词如复视)、三字词(三概念词如下背痛)、四字词(四概念词如相对传入性瞳孔缺陷)、扩展(超过四个词的文本跨度标注)、复合(一个文本跨度中的多个概念,如踝反射和膝反射活跃)和表格(以表格或列格式表示的概念,通常显示左右身体侧)。我们按文本跨度的长度和类型标记体征和症状的动机是假设训练用于识别医学文本中体征和症状的神经网络在较长文本跨度上会表现出较低的准确性。我们小组最近的一项研究证实了这一假设。

机器标注器

机器标注器是一个经过训练的神经网络,用于识别电子健康记录医师笔记中包含神经学概念的文本跨度。该神经网络是默认的spaCy命名实体识别模型,基于四层卷积神经网络,使用tok2vec查看每个标记两侧的四个词,初始学习率为1×10^-3。使用Prodigy提供的默认参数进行训练。该神经网络在11,000个手动标注的句子上进行训练,这些句子来自神经学教科书、在线神经疾病描述和电子健康记录笔记。关于训练神经网络的更多细节可在相关文献中找到。

标注

每轮标注五份患者电子健康记录笔记。为研究目的标注电子健康记录临床笔记获得了伊利诺伊大学机构审查委员会的批准。通过UIC生物库项目获得了所有受试者使用临床笔记的知情同意。三名人工标注者和机器标注器对每份笔记进行标注。每轮结束后,标注者会面并审查任何标注分歧。每位标注者的标注存储在SQLite数据库中,并导出为JSON文件,用于在Python中计算评分者间一致性。文本跨度通过查找表和spaCy的相似性方法映射到神经本体论中的概念。使用SPSS进行单因素方差分析和Cohen’s Kappa统计量计算。

结果

标注者识别了电子健康记录医师笔记中的神经学体征和症状。每位标注者识别了与每个体征和症状相关的文本跨度,并为每个标注分配了类别标签。计算了三名人工标注者和机器标注器之间的一致性。

尽管每轮标注了五份电子健康记录笔记,但笔记长度各不相同。电子健康记录笔记中的每一行都转换为JSON文件中的单行,并在Prodigy标注器中生成一个标注屏幕。第1轮有625个标注屏幕,139个体征和症状需要标注;第2轮有674个标注屏幕,205个体征和症状需要标注;第3轮有523个标注屏幕,138个体征和症状需要标注。由于体征和症状数量少于标注屏幕数量,许多标注屏幕没有体征或症状需要标注。当两位标注者一致认为标注屏幕没有体征或症状时,这在调整和未调整指标中均被评为标注者一致。

文本跨度任务的未调整一致性在人工标注者之间为88.9%±3.2,在人工标注者和机器标注器之间为83.9%±4.6。类别标签任务的未调整一致性在人工标注者之间为87.7%±4.4,在人工标注者和机器标注器之间为84.6%±5.5。

Cohen’s Kappa统计量在文本跨度任务和类别标签任务上均较高。在文本跨度识别任务上,人工对之间的Kappa高于人机对。在类别标签任务上,人工对和人机对的Kappa相似。文本跨度任务和类别标签任务的Kappa在各轮之间没有差异。

讨论

体征和症状是患者表型的重要组成部分。从电子健康记录中提取这些表型特征并将其转换为机器可读代码使其可计算。这些可计算表型对精准医学计划至关重要。Agrawal等人将临床实体提取概念化为文本跨度识别和临床实体规范化的两步过程。文本跨度识别是在自由文本中识别体征和症状;实体规范化是将此文本映射到本体论中的规范体征和症状。我们专注于文本跨度标注的评分者间一致性。对于实体规范化,我们依赖于将文本跨度映射到神经本体论中概念的查找表。我们发现人工标注者之间具有高未调整一致性,而人工标注者和机器标注器之间的未调整一致性较低。

类别标签的未调整一致性低于文本跨度的评分者间一致性,这可能是由于电子健康记录笔记自由文本中连字符的使用以及标注者对哪些类型的文本跨度需要表格标签的不确定性等因素所致。人工评分者间的Kappa统计量在0.77至0.91之间,人机一致的Kappa统计量在0.69至0.87之间。我们认为人工评分者间的调整一致性良好,特别是与训练有素的神经科医生获取患者体征和症状的评分者间调整一致性相比。对于训练有素的神经科医生获取无力、感觉丧失、共济失调、失语、构音障碍和嗜睡等体征和症状,Kappa统计量范围在0.40至0.70之间。

本研究中较高的一致性水平可能反映了从患者那里获取体征或症状比在电子健康记录中标注体征或症状更困难。尽管如此,本研究的调整一致性高于先前的标注研究,可能反映了标注者的培训、神经本体论的使用、决定不编码症状严重程度或偏侧性以及复杂标注工具的使用。

我们没有发现人工标注者在各轮之间存在训练效应。尽管标注者在每轮后开会讨论标注差异,但评分者间调整和未调整一致性在各轮之间没有显著提高。这表明文本跨度标注的评分者间一致性可能存在上限,Kappa在0.80至0.90之间,由于任务的复杂性和无法通过额外培训或经验解决的随机因素,可能无法实现更高水平的一致性。这种人工评分者间一致性的上限效应对人机之间更高评分者间一致性的潜力具有影响。文本跨度的平均评分者间调整一致性在人工对之间高于人机对。额外的训练示例可能会提高机器标注器在文本跨度和类别标签任务上的性能。此外,其他神经网络可能优于作为Prodigy基线的卷积神经网络。我们发现基于转换器双向编码器表示的神经网络可以将文本跨度任务的性能提高5%至10%。其他人发现基于BERT的深度学习方法在概念识别和提取任务上优于基于CNN的方法。标注体征和症状的评分者间一致性,无论是人-人还是人-机,在Kappa接近0.90时可能存在上限效应。

鉴于医生繁重的文档负担和电子健康记录导致的职业倦怠,医生对体征和症状的文档记录很可能继续以自由文本形式进行。在当前环境下,将体征和症状的结构化文档记录作为自由文本的替代方案过于繁重。一个每日住院患者300人、每日门诊患者2000人的中型医疗中心每天至少生成5000份临床笔记,或每年超过150万份笔记。电子健康记录中临床笔记的庞大规模使得手动标注体征和症状不切实际。为精准医学计划提取体征和症状将取决于自然语言处理和自然语言理解的进步。

尽管通过手动方法对电子健康记录进行高通量表型分析不切实际,但电子健康记录中自由文本的手动标注可用于训练神经网络进行表型分析。神经网络也可以加速手动标注过程。标注器Prodigy有一种称为ner.correct的标注模式,使用训练好的神经网络加速体征和症状的手动标注。

通过适当的培训和指南,人工标注者之间在体征和症状方面实现高水平的评分者间一致性是可行的。将标注限制在有限领域和受限本体论简化了手动标注。尽管人机标注者之间的评分者间一致性低于人工标注者之间,但自然语言处理的进步应使人机之间的评分者间一致性更接近,并使电子健康记录的高通量表型分析变得可行。

研究局限性

本研究存在局限性。临床笔记样本量小。更大的笔记样本更理想。标注过程仅限于神经学笔记中的神经学体征和症状。目标本体论是有限的神经本体论,包含1600个概念。我们仅评估了一个基于卷积神经网络的机器标注器。其他神经网络可能表现更好。我们的评分者间一致性结果可能无法推广到其他医学领域和本体论。尽管本研究有三名评分者,但我们未指定任何人为"金标准",并选择分别计算每对评分者间的评分者间一致性。我们认为人工评分者之间90%水平的未调整一致性应被视为较高。同样,能与人工评分者达到90%未调整一致性的机器标注器应被视为准确。由于缺乏金标准,我们选择将机器标注器的性能测量为一致性和Kappa统计量,而不是准确率、精确率和召回率。尽管我们使用ANOVA评估调整和未调整一致性均值差异的显著性,但我们不能确定样本中满足ANOVA的所有假设,包括正态性、方差齐性和独立性。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值