基于本体的推特消息医疗保健命名实体识别:一种循环神经网络方法
摘要
医疗领域的命名实体识别(NER)涉及识别和分类疾病、药物及症状,用于生物监测,提取其相关属性和活动,并识别文本中出现的药品不良事件。这些任务在医疗保健领域中具有重要意义且充满挑战。分析推特等社交媒体网络中的用户消息,有助于检测和管理公共卫生事件。推特提供了大量包含有趣信息的短消息,适合进行信息抽取。本文提出了一种基于医疗领域本体的健康相关命名实体识别(HNER)任务,能够从大量推特用户消息中识别健康相关实体。为此,我们采用了一种基于循环神经网络(RNN)的深度学习架构,仅需少量特征工程。为实现目标,我们收集了大量的包含健康相关信息的推特消息,并从中检测来自统一医学语言系统(UMLS)的生物医学实体。双向长短期记忆网络(BiLSTM)模型学习了丰富的上下文信息,卷积神经网络(CNN)用于生成字符级别特征。条件随机场(CRF)模型预测与输入序列相对应的标签序列,并利用维特比算法从推特消息中检测健康相关实体。我们提供了全面的实验结果,为在多种应用中识别推特中的医学实体提供了有价值的见解。BiLSTM‐CRF模型在疾病或综合征生物医学命名实体识别任务上取得了93.99%的精确率、73.31%的召回率和81.77%的F1分数;在体征或症状生物医学命名体识别任务上达到了90.83%的精确率、81.98%的召回率和87.52%的F1分数;在药理物质命名实体识别任务上获得了94.85%的精确率、73.47%的召回率和84.51%的F1分数。基于本体的手动标注结果表明,尽管医学术语复杂且推文中存在上下文缺失问题,仍可实现高质量的标注。
关键词 :命名实体识别;医疗保健;深度学习;循环神经网络;词嵌入;本体;统一医学语言系统;条件随机场;推特
1. 引言
社交媒体网站(如推特)上记录了海量的健康相关知识,每年发布的推文数量呈指数级增长[1–3]。推特是收集和提供公共卫生信息最全面的社交媒体网站:每天发送5亿条推文,每秒达5000条。尽管大量信息被认为可用于监测和分析健康相关信息,但方法学透明度的缺乏用于数据提取、处理和分析的方法不准确,导致在检测疾病暴发、药品不良事件等方面出现预测偏差。因此,与健康相关的文本挖掘和信息抽取对于研究人员开发有用的公共卫生应用而言仍是活跃的研究挑战[4–6]。开发此类信息抽取系统的一个关键部分是命名实体识别(NER)过程,该过程定义了特定文本中术语内普通词之间的边界,并基于领域知识将术语分配到特定类别[7–9]。
命名实体识别(NER),也称为实体抽取,将文本中出现的命名实体分类到预定义的类别中,例如“地点”、“时间”、“人物”、“组织”、“金钱”、“百分比”和“日期”等。[10]。例如:(ORG 联合国)官员(PER 埃克乌斯)前往(LOC 巴格达)[11]。该句子包含三个命名实体:埃克乌斯是人物,联合国是组织,巴格达是地点。
在基于机器学习的传统命名实体识别方法中,词性(POS)信息被视为实体识别的关键特征[10–13]。2016年,Lample等人[7]提出了一种基于长短期记忆网络(LSTM)的神经网络架构,该架构不使用语言特定资源和人工设计的特征。他们比较了LSTM与条件随机场(LSTM‐CRF)模型以及堆叠长短期记忆网络(S‐LSTM)模型在各种命名实体识别任务中的表现。针对英语的最先进的命名实体识别系统已达到接近人类水平的表现,F1分数超过90%。例如,在[14]参加第七届消息理解会议(MUC‐7)的最佳系统在F值上的得分为93.39%,而人工标注者的得分分别为97.60%和96.95%。然而,在医疗保健、生物医学、化学和临床领域中的表现却不如英语领域。这些领域的性能受限于诸如新术语不断产生、作者之间技术术语缺乏标准化,以及技术术语(例如疾病、药物和症状)通常具有多个名称等问题[15]。因此,最先进的命名实体识别软件(例如斯坦福命名实体识别)在推特命名实体识别任务上效果较差[9]。
公共卫生研究需要了解疾病、药物和症状方面的知识。研究人员致力于探索人群健康、福祉、残疾以及影响这些状态的决定因素,包括生物的、行为的、社会的或环境的因素。此外,研究人员还开发并评估旨在改善人群健康、预防疾病、弥补残疾以及在卫生、社会和医疗服务组织方面提供创新的干预措施。互联网彻底改变了高效的健康相关信息传播和疫情情报获取方式。人们越来越多地使用互联网和社交媒体渠道。在当今社交媒体占据主导地位的时代,推特等微博平台可能是获取最新信息的最佳来源。推特提供了大量完全公开且可抓取的微博内容,其中包括丰富的健康信息。
本文所报告的研究旨在从嘈杂的推特消息中预测健康相关命名实体,如疾病、症状和药理物质,这些信息对于发现公共卫生信息以及开发与疾病暴发预测和药物相互作用相关的实时预测系统至关重要。为实现这一目标,我们采用了一种深度学习方法,获取可用于各种文本挖掘任务的预训练词嵌入。我们收集了大量推特数据,并对其进行清洗和预处理,以生成实验数据集。我们使用UMLS元词库[18]对数据集进行自动标注,涵盖三类实体(疾病、症状和药理物质)。我们的深度学习架构遵循[19]中的窗口方法。我们提出的方法具有多项理想优势:
- 我们使用BiLSTM‐CRF模型在疾病或综合征HNER任务上达到了93.99%的精确率、73.31%的召回率和81.77%的F1分数;在体征或症状HNER任务上达到了90.83%的精确率、81.98%的召回率和87.52%的F1分数;在药理物质命名实体识别任务上达到了94.85%的精确率、73.47%的召回率和84.51%的F1分数。
- 该架构使用了较少的手工设计特征,仅借助词性标注。因此,其具备大幅提升最先进性能的巨大潜力。
- 我们在HNER任务中使用特定领域的UMLS本体提出了大量推文,包括三种健康相关实体类型(疾病、症状和药理学物质)。
- 由于双向LSTM‐CRF能够从推特消息中提取健康相关实体并识别它们之间的关系,因此该方法在健康相关领域(包括疾病、综合征、体征、症状和药理学物质)得到了特别良好的应用。
本文的其余部分组织如下:第2节介绍本文的理论基础和相关工作。第3节重点描述实验数据集、健康相关命名实体识别任务以及深度学习模型的训练方法。在第4节中,提供了实验分析及相关结果。最后,第5节对实验分析进行了讨论,并给出了我们的结论。
2. 背景
2.1. 研究框架
本文提出了一种基于医疗领域本体的HNER任务。图1展示了HNER任务的流程。对于HNER任务的输入,我们创建了一个医疗推特语料库,该语料库于2018年7月12日至2019年7月12日之间从推特上以“healthcare”为搜索词收集而来。首先,我们采用了基本的预处理技术,包括文本清洗(如去除话题标签和统一资源定位符(URL))、去除标点符号、消除多个空白字符以及文本归一化。我们使用文本过滤以避免大量误报。仅保留包含三种命名实体(“疾病”、“症状”和“药理学物质”)的推文,而包含常见非医学词汇如“fit”、“水”、“其他”、“可能”和“说”等的推文则被剔除。随后,我们对词级别序列进行分词。其次,我们生成了词级别和字符级别特征。对于词级别特征,我们采用了预训练词嵌入和词性标注方法,并且使用卷积神经网络生成字符级别特征。
此外,为了获取医疗领域本体的知识,我们使用UMLS标注为输入序列创建标签。最后,我们将所有特征及特征组合用于实验。我们将实验数据集划分为训练集和测试集。LSTM‐CRF 和 BiLSTM‐CRF 模型在训练集上进行训练,并在测试集上进行评估。在HNER任务范围内,训练好的模型能够从推特数据中识别医学实体。例如,给定输入推文序列“上周,唐纳德·特朗普总统宣布阿片类药物危机为”
“国家公共卫生紧急事件”,命名实体识别系统只能识别出人物(唐纳德·特朗普),而无法识别其他健康相关实体。为解决这一问题,BiLSTM‐CRF模型能够识别公共卫生研究所需的医学实体(阿片类药物危机)。
2.2. 相关工作
信息抽取是从非结构化或原始数据中提取有用信息(如实体间关系)的过程[20]从微博(例如推特)等嘈杂来源中提取结构信息的过程确实具有挑战性[21]。例如,推文通常较短,单条推文的字符数限制为140个字符,上下文信息有限。近年来,各种深度学习架构已被应用于计算机视觉、自动语音识别、自然语言处理以及音乐/音频信号识别等领域,在多种任务上展现出最先进的结果。在自然语言处理(NLP)任务中,包括命名实体识别[10],词性标注[22],语义角色标注[23],依存句法分析[24],情感分析[25],和网络搜索等任务,这一情况尤为明显[20,26]。在生物医学自然语言处理[27–29]任务中,深度学习技术已得到成功研究[30,31]。这些深度学习的进步激发了新型方法的发展,以更好地理解医疗保健问题。深度学习模型在预测建模方面表现出显著提升,特别是在描述疾病、症状以及药物发现的性质和活动时[32–34]。
近年来,生物医学和化学命名实体识别领域提出了多种深度学习架构。目前尚缺乏针对推特等社交媒体网站上健康相关命名实体识别任务的深度学习方法。主要方法包括卷积神经网络(CNN)[35–37],循环神经网络(RNN)[32,38,39],以及这两种架构的结合(CNN‐RNN[40])。如今,命名实体识别方法在特定领域中面临泛化问题。卷积神经网络模型通常捕捉局部特征,而这些特征较难解决。因此,提出了结合CNN‐RNN[40]的模型以改善泛化能力。最近,长短期记忆网络(LSTM)作为RNN模型的一种特殊情况,在自然语言处理和生物医学文本挖掘任务中取得了成功。LSTM‐CRF[32,38]模型在生物医学命名实体识别任务中取得了改进的结果。最近,一种称为双向长短期记忆网络(BiLSTM)的先进深度神经网络类型越来越多地被应用于生物医学命名实体识别研究,并在其发表时达到了最先进的性能[32,38,41–43]。此外,还提出了基于注意力机制的双向LSTM‐CRF模型,以在文档级别捕捉相似实体的注意力[44]。其中一种著名的与深度学习相关的方法是词嵌入。
词嵌入[45]是一种将词映射到高维向量的函数。目前,神经网络是生成词嵌入[46]最常用的学习技术之一。词嵌入有助于基于上下文理解不同词之间的关联。在医疗保健领域,将生物医学实体映射到表示空间用于发现文本语料库[47]中命名实体之间的关系。由于任何深度架构都基于词嵌入,因此近年来,在大量文本集合上以无监督方式使用词嵌入已成为许多采用深度学习的自然语言处理系统成功的“秘诀”。通过神经网络计算得到的词嵌入显式地捕捉了许多语言规律性和句法模式。
尽管已有多种方法用于从推特消息中进行与健康相关的命名实体识别以支持公共卫生和HNER任务,但深度学习技术的研究仍显不足。一些成功的研究已将命名实体识别分析应用于推特[9,13,48]。少数研究集中于健康相关实体,包括疾病、药物和症状[49],并应用了神经网络架构[50]。基于本体的深度学习技术也已成功应用于从推特消息中提取疾病名称[51]。近期研究大多使用了较小规模的数据集。本文利用大量推文,并通过在大规模训练样本上应用深度学习的优势,将BiLSTM‐CRF模型应用于HNER任务。因此,为了促进我们设计了一个有用的大型标注数据集和预测方法,使研究人员能够利用深度学习进行医疗保健文本挖掘据。我们所知,HNER 任务最近由 Jimeno‐Yepes 等人[49],提出,并发布了 Micromed 数据集。随后,希门诺‐耶佩斯和麦金莱[50]将 LSTM‐CRF 模型应用于 Micromed 数据集。在本文中,我们提供了一个比 Micromed 更大的数据集,采用各种 RNN 技术,并提供了全面的实验结果。
3. 材料与方法
3.1. 数据集
我们通过Twitter API[52],使用搜索词“healthcare”,在2018年7月12日至2019年7月12日之间获取了大量健康相关推文数据。该数据集包含1,403,393条健康相关推文。
在 HNER 任务中,我们仅考虑了三种类型的实体,即疾病、症状和药理物质,以匹配我们目标标注的特定实体。这些类型的实体也在 Micromed 数据集中进行了标注[49]。表1展示了每种实体类型的详细信息。我们找到了 189,517 条关于“疾病或综合征”的推文,包含 382,629 个医学术语(占总词数的 7.25%)和 9,536 个唯一术语(占总唯一词数的 3.74%)。发现了 77,466 条关于“体征或症状”的推文,包含 99,367 个医学术语(占总词数的 4.33%)和 2,043 个唯一术语(占总唯一词数的 4.56%)。共发现了 409,268 条关于“药理学物质”的推文,包含 848,871 个医学术语(占总词数的 7.51%)和 8,148 个唯一术语(占总唯一词数的 1.80%)。推文及相应医学术语的例如下所示:
| 类型 ID | 实体类型 | 总推文数 | 实体总数 | 唯一实体 |
|---|---|---|---|---|
| T047 | 疾病或综合征 | 189,517 | 382,629(7.25%) | 9536(3.74%) |
| T184 | 体征或症状 | 77,466 | 99,367(4.33%) | 2043(1.56%) |
| T121 | 药理学物质 | 409,268 | 848,871 (7.51%) | 8148 (1.80%) |
示例1 :“大麻 (T121) 菌株 (T121) 用于缓解压力 (T184),这是洛杉矶大麻医生的推荐”。
示例2 :“2月26日加入VLAB,了解糖尿病 (T047) 领域的突破,例如人工胰腺 (T047)”。
示例3 :“噩梦 (T184)、嗜睡症 (T184) 和突然的 (T184) 虚弱 (T184) 使玛丽的生活陷入混乱,这一切始于猪流感 (T047) 疫苗接种之后”。
在预处理步骤中,我们移除了所有网址(以“http”和“https”开头的)、话题标签(以“#”开头的)、非英文字符以及标点符号。然后将所有字符转换为小写字母。最后,仅保留包含至少五个词的推文。
并非所有推文都包含健康相关实体。我们使用统一医学语言系统(UMLS)中的医学术语列表过滤掉不相关的推文。只有当推文中包含至少一个医学实体类型的实体时才予以保留,其余的均被删除。
最后,我们筛选出676,251条推文,共包含1,330,867个医学术语和19,727个唯一医学术语用于实验。实验数据集中的推文至少包含一个健康相关实体。每种实体类型及其频率的健康相关实体如表2所示。为避免大量误报,我们从每种实体类型中移除了以下非医学术语:
- T047: 疾病, 最佳, 招募, 疾病, 可能, 说, 创始人, 增加, 西部, 可评估, 等
- T184: 健康, 体重, 发现, 捕捉, 不平衡, 药物, 其他, 行走, 斑点, 大量, 等
- T121: 水, 各种, 项目, 药物, 停止, 明天, 橙色, 支持, 解决方案, 速度, 等
| No | 疾病或综合征 | 体征或症状 | 药理学物质 |
|---|---|---|---|
| 1 | 糖尿病 42,493 | pain 7355 | 制药的 42,688 |
| 2 | 营养不良 6541 | 意志力缺乏 7036 | 洋地黄 27,882 |
| 3 | 阿尔茨海默病 4402 | 抑郁症 3387 | 大麻 17,782 |
| 4 | 肥胖 3667 | 疾病 2614 | 放射性药物 12,691 |
| 5 | flu 2593 | 外脚趾 2303 | 治疗 9112 |
| 6 | 共感染 2556 | 焦虑 2142 | 大麻 8979 |
| 7 | 怀孕 1889 | 菌株 1510 | 聚维酮碘 6190 |
| 8 | 德维克 1683 | 脚趾内 1506 | 儿科的 5701 |
| 9 | 枯萎病 1549 | 疲倦 1120 | 非处方 5571 |
| 10 | 哮喘 1517 | ill 1007 | 锎 5385 |
我们关联了相关的元词库表(“MRCONSO.RRF”和“MRSTY.RRF”)以确定健康相关命名实体。我们使用杰卡德相似性度量(>0.7)对推文中的所有术语进行了标准化。
- T047:diabet到 diabeta(0.80),alzheime到 alzheimer(0.86),obesit到 obesity(0.80)等。
- T184:strains到 strain(0.80),grimaced到 grimace(0.83),illnesss到 illness(0.83)等。
- T121:marijuan到 marijuana(0.86),pharmaceutica到 pharmaceutical(0.71)等。
经过所有预处理和过滤后,我们将实验数据集划分为训练、测试和验证子集。表3展示了每种实体类型的推文分布情况,以及相应的推文数量、术语数量和唯一术语数量。
| 子集 | 类型 ID | 总推文数 | 总词数 | 唯一词项 |
|---|---|---|---|---|
| 训练 | T047 | 125,275 | 215,326 | 7766 |
| T184 | 47,554 | 56,105 | 1665 | |
| T121 | 287,341 | 477,408 | 6559 | |
| 验证 | T047 | 53,096 | 71,686 | 5141 |
| T184 | 17,436 | 18,660 | 1061 | |
| T121 | 125,012 | 159,099 | 4073 | |
| 测试 | T047 | 67,137 | 95,558 | 5797 |
| T184 | 22,874 | 24,846 | 1195 | |
| T121 | 158,064 | 212,257 | 4685 |
3.2. 数据集标注工具
对于数据集标注,我们使用了QuickUMLS工具[53]从医学文本中提取生物医学概念。我们下载了最新版本的UMLS(umls‐2019AA‐元词库),并设置了如表4所示的参数。
| 参数 | 值 |
|---|---|
| quickumls_fp | UMLS数据文件(umls‐2019AA‐元词库) |
| overlapping_criteria | “分数” |
| 阈值 | 0.7 |
| 相似度_名称 | “杰卡德” |
| 窗口 | 5 |
| 已接受_语义类型 | “T047”,“T184”,“T121” |
3.3. 健康相关命名实体识别
在本节中,我们提供HNER中的问题定义、BiLSTM‐CRF模型架构的细节以及训练过程。我们使用Pytorch库[54]来实现我们的模型。我们的主要目标是预测给定句子或推文中的医学术语。BiLSTM‐CRF模型的概述如图2所示。BiLSTM‐CRF模型由四层组成,包括嵌入层、双向长短期记忆网络、CRF层和维特比层。嵌入层包含三个子表示:词嵌入特征(黄色)、字符特征(红色)和附加词特征(绿色)。使用并比较了医疗和非医疗领域的预训练词嵌入以生成词嵌入。卷积神经网络用于生成字符嵌入,词性标注用于生成附加词特征。双向长短期记忆网络从拼接后的词和字符表示中学习上下文信息,并生成词级上下文表示,该表示指示每个词的置信度得分“CS”。CRF层基于上下文信息计算每个词输入的标注得分。最后,使用维特比算法找出使标注得分最大化的标签序列。我们将在接下来的章节中详细解释所提出模型的细节及其在HNER任务中的应用。
3.3.1. 问题定义
我们将命名实体识别视为分割和序列标注两个问题的结合,给定
- 一个有序的N个字符序列集合 X =(X1, X2,…,XN),其中 Xi=(c1i, c2i,…, cni) 是一个字符序列;
- 一个有序的N个标注集合 Y =(Y1, Y2,…, YN),其中 Yi 是一个序列 Yi=(y1i, y2i,…, yni),且 yij 是一个包含两个布尔标签的元组(sij, eij),分别表示对应字符是否为化学实体的开始和/或是否属于某个化学实体的一部分。
我们的任务是创建一个预测器 P: X → ˆY,其中 ˆY 是一组与 Y 类似的推断标注。我们还使用一个分词器:X → X,其中 X 是有序的字符子序列(标记)序列,从而将目标函数重新定义为针对每个标记的标注。只要分词器足够精细,避免出现具有重叠标注的标记,这个重新定义的问题就等同于原始问题。
3.3.2. 特征表示
在预测模型的第一阶段,即嵌入阶段,我们通过词嵌入(1)、字符嵌入(2)和词性标注(3)来表示每个词元。
词嵌入(word) :我们使用了非生物医学和生物医学预训练词嵌入,并分析了词嵌入对 HNER任务的影响。在本文中,我们使用了GloVe[55]和Word2Vec[56]的非医学词嵌入。我们还使用了Pyyssalo等人[57],邱等人[47],陈等人[58],以及Aueb等人[59]研究中的医学词嵌入。我们的实验结果展示了这些词嵌入在推特医疗健康命名实体识别任务上的比较。详细信息见附录 A,词嵌入的统计信息见表 A1和A2。
字符嵌入 (char) :字符级词嵌入非常有用,尤其是在利用大量稀有词和未登录词且词嵌入训练不足的情况下。这在生物医学与化学领域中尤为常见。词级别方法在处理推特数据时表现不佳,因为推特数据文档极短且常包含大量低频或拼写错误的词汇。本文考虑了字符级词嵌入。相关细节见附录B和。此外,表A3展示了本文所使用的字符集,图A1展示了用于提取字符级别特征的卷积神经网络。
附加词特征(POS) :最先进的命名实体识别系统[39,60]使用诸如词性标注之类的附加特征[61]作为外部知识的一种形式。本文也将词性标注作为附加词特征使用。词性标签有助于构建解析树,而解析树可用于构建命名实体识别器和提取词语间关系。表 5展示了如何应用词性特征的一个示例。
| 推文 | if you ever feel不适 fart your way into健康健康 |
|---|---|
| POS | IN PRP RB VBP JJ RB PRP NN IN JJ NN |
| ## 3.3.3. 特征学习 |
在拼接不同的特征表示后,我们使用双向长短期记忆网络层来学习推文中词的序列结构。长短期记忆网络和双向长短期记忆网络是自然语言处理任务中常用的RNN技术。与单向的长短期记忆网络相比,双向长短期记忆网络可以利用来自两个方向的信息来学习输入特征。详细说明见附录C以及图 A2详细展示了长短期记忆网络记忆单元。
3.3.4. 预测
在学习输入特征后,采用了著名的CRF层。BiLSTM‐CRF是双向长短期记忆网络与条件随机场的结合,一种用于序列标注任务的字符串算法,非常有效。在双向长短期记忆网络模型中,输出层的标注决策是使用softmax激活函数独立完成的。这意味着一个标记的最终标注决策不依赖于其他标记的标注决策。因此,在双向长短期记忆网络模型中添加CRF层,使模型具备了学习最佳标签序列的能力,从而最大化输出标签序列的对数概率。双向LSTM‐CRF在命名实体识别任务中非常成功,它在多个命名实体识别基准数据集上取得了最先进的结果,且无需使用任何特征。详细说明见附录D和E。
3.4. 网络训练
在本节中,我们将详细介绍神经网络的训练过程。我们使用Pytorch库来实现LSTM‐CRF和 BiLSTM‐CRF模型。
我们使用反向传播算法[62]训练网络架构,通过Adam优化器[63]结合Nesterov动量[64]来更新每个训练样本的参数。在每轮训练中,我们将所有训练数据划分为多个批量,然后逐批处理。批量大小决定了句子的数量。在每个批量中,我们首先从双向长短期记忆网络(BiLSTM)获得所有标签的输出分数,然后将这些输出分数输入到CRF层,并获取输出和状态转移矩阵的梯度。由此,我们可以将误差从输出反向传播到输入,其中包括长短期记忆网络(LSTM)双向状态的反向传播。最后,我们更新所有参数。
Dropout[65]可以缓解过拟合问题。我们将Dropout直接应用于权重向量,以屏蔽组合嵌入输入到双向LSTM之前的最终嵌入层。通常将Dropout率固定为0.5,并在我们的模型上取得了良好的性能。
我们还使用耐心值20的早停策略,通过监控验证集上的加权F1分数来避免过拟合。
3.5. 超参数设置
我们的超参数如表6所示。我们使用了三层卷积,并将卷积层的输出设置为50,以从每个词中提取字符特征。我们还使用了两层长短期记忆网络,并将长短期记忆网络的状态大小设置为250。对于停止条件,我们采用了早停策略,最大迭代次数设置为100。批量大小为100,Dropout层为0.5,初始学习率为0.001。
| 超参数 | 值 |
|---|---|
| 卷积宽度 | 3 |
| CNN输出大小 | 50 |
| LSTM状态大小 | 250 |
| LSTM层 | 2 |
| 学习率 | 0.001 |
| 训练轮数 | 100 |
| Dropout | 0.5 |
| 批量大小 | 100 |
实验硬件平台为英特尔至强E3(32G内存,GTX 1080 Ti)。实验软件平台为Ubuntu 17.10操作系统,开发环境为Python 3.5编程语言。使用Python的Pytorch库和Scikit‐learn库构建医疗命名实体识别模型和对比实验。
3.6. 评估指标
为了评估我们的模型,采用精确匹配准则来检验三种不同的结果类型。假阴性(FN)和假阳性(FP)分别是错误的阴性和阳性预测。分别为。真正例(TP)指正确的正类预测,即实际正确的预测结果。评估基于精确率(P)、召回率(R)和F值(F)这三个性能指标。召回率表示在所有正例中被正确标注的百分比,其计算公式为:
P= TP/(TP+ FP) (1)
R= TP/(TP+ FN) (2)
F=(2× P× R)/(P+ R) (3)
4. 结果与讨论
在本文中,我们采用了具有不同词特征组合(词嵌入、字符嵌入和词性标注)的BiLSTM‐CRF模型对划分后的数据集进行处理。BiLSTM-CRF模型是 compared with LSTM-CRF model presented by Jimeno-Yepes and MacKinlay[50]以针对最相似的任务。据我们所知,目前尚无其他已发表的研究使用推特数据进行健康相关命名实体识别任务。他们使用带有预训练词嵌入的LSTM‐CRF模型,并在Micromed数据集上优于条件随机场模型。我们提出的数据集与 Micromed类似,但规模更大。更大的数据集有助于深度学习方法提升问题复杂性和学习算法的性能。
对比性能评估结果如表7所示。在所提出的数据集上评估时,BiLSTM‐CRF(word + char+ POS)在疾病或综合征生物医学命名实体识别任务中的精确率为93.99%,召回率为73.31%,F1值为81.77%。BiLSTM‐CRF(word + char)的精确率为94.53%,而LSTM‐CRF(word + char+ POS)的 F1值为82.08%。BiLSTM‐CRF(word + char+ POS)在体征或症状生物医学命名体识别任务中的精确率为90.83%,召回率为81.98%,F1值为87.52%。BiLSTM‐CRF(word + char+ POS)在药理物质健康命名实体识别任务中的精确率为94.85%,召回率为73.47%,F1值为84.51%。BiLSTM‐CRF(word + char)的精确率为94.93%。在所提出数据集上的实验结果表明,BiLSTM‐CRF(word + char+ POS)能够在HNER任务中取得优异的表现。令人意外的是,在评估所提出的数据集时,未使用词性标注模型的BiLSTM‐CRF在疾病或综合征识别中的精确率比使用词性标注模型的高0.54%,在药理学物质识别中则高出0.08%。此外,对于疾病或综合征任务,使用全特征模型的LSTM‐CRF的F1值比BiLSTM‐CRF的特征模型高出0.31%。
| 模型 | 疾病或综合征 | 体征或症状 | 药理学物质 | ||||||
|---|---|---|---|---|---|---|---|---|---|
| P | R | F | P | R | F | P | R | F | |
| LSTM‐CRF(词) | 91.30 | 68.44 | 78.29 | 86.18 | 76.85 | 82.32 | 91.39 | 68.57 | 79.63 |
| LSTM‐CRF(字符) | 90.86 | 67.78 | 77.63 | 85.15 | 75.89 | 82.11 | 90.88 | 67.53 | 79.12 |
| LSTM‐CRF(词性) | 90.05 | 67.15 | 77.02 | 84.14 | 75.61 | 81.08 | 90.07 | 67.07 | 78.61 |
| LSTM‐CRF(词+字符) | 92.75 | 70.24 | 81.60 | 88.12 | 78.76 | 85.03 | 93.55 | 71.11 | 82.06 |
| LSTM‐CRF(词+词性) | 92.42 | 68.82 | 79.44 | 86.74 | 77.91 | 84.06 | 92.65 | 70.53 | 82.01 |
| LSTM‐CRF(字符+词性) | 92.07 | 68.68 | 78.43 | 86.52 | 77.21 | 82.88 | 92.39 | 69.44 | 80.48 |
| LSTM‐CRF(词+字符 +词性) | 93.85 | 71.27 | 82.08 | 88.59 | 79.44 | 85.38 | 93.97 | 71.37 | 82.22 |
| BiLSTM‐CRF(词) | 93.01 | 69.60 | 79.35 | 87.29 | 77.86 | 83.52 | 93.08 | 70.07 | 81.31 |
| BiLSTM‐CRF(字符) | 92.08 | 69.07 | 79.21 | 86.58 | 76.90 | 83.14 | 92.06 | 69.10 | 80.42 |
| BiLSTM‐CRF(词性) | 91.69 | 68.71 | 78.26 | 85.35 | 76.64 | 82.39 | 91.51 | 68.26 | 79.99 |
| BiLSTM‐CRF(词+字符) | 94.53 | 72.52 | 81.72 | 89.15 | 80.21 | 86.22 | 94.93 | 72.27 | 83.06 |
| BiLSTM‐CRF(词+词性) | 93.54 | 70.51 | 81.07 | 89.00 | 79.39 | 85.22 | 94.13 | 71.06 | 83.05 |
| BiLSTM‐CRF(字符+词性) | 93.24 | 69.69 | 79.89 | 87.72 | 78.33 | 84.15 | 93.42 | 68.87 | 82.45 |
| 双向LSTM‐CRF (词+字符 +词性) | 93.99 | 73.31 | 81.77 | 90.83 | 81.98 | 87.52 | 94.85 | 73.47 | 84.51 |
注:最佳结果以粗体标出已用粗体标出 .词:词嵌入;字符:字符嵌入。
在这些实验中,我们使用了“Pyysalo Wiki + PM+ PMC”预训练词嵌入,其效果优于其他预训练词嵌入(见表8)。与Micromed数据集和本文提出的数据集相比,将LSTM +条件随机场(词)模型应用于两个数据集。该在所提出的数据集上,模型性能显著提升。LSTM+CRF(词)模型的表现优于LSTM+ CRF(字符)和LSTM+ CRF(POS)模型。可以看出,与字符嵌入和词性标注相比,词嵌入是HNER任务中最有效的特征。结合不同特征的模型进一步提升了结果。最佳结果由BiLSTM‐CRF(词+字符+ POS)取得,该模型融合了所有类型的特征。推特数据集噪声较高,包含大量未登录词。因此,字符嵌入有助于更好地学习这些词以及其他稀有词。如前所述,大多数最先进的结果都使用了词性标注。此外,我们的实验结果也证明,词性标注在各种命名实体识别任务中是高效的。总体而言,在所有实验中,双向LSTM‐CRF模型均优于LSTM+CRF模型。
| 词嵌入 | 疾病或综合征 | 体征或症状 | 药理学物质 | ||||||
|---|---|---|---|---|---|---|---|---|---|
| P | R | F | P | R | F | P | R | F | |
| GloVe 维基百科+ Gigaword [55] | 89.87 | 68.11 | 77.10 | 86.72 | 77.06 | 82.87 | 90.11 | 68.93 | 80.32 |
| GloVe Common Crawl‐42[55] | 89.35 | 67.42 | 76.77 | 85.64 | 76.63 | 82.40 | 89.80 | 68.41 | 79.59 |
| GloVe Common Crawl‐840[55] | 89.64 | 67.71 | 76.76 | 86.57 | 76.66 | 82.58 | 89.90 | 68.85 | 80.27 |
| GloVe 推特 [55] | 90.94 | 69.40 | 78.33 | 88.09 | 78.55 | 83.98 | 91.13 | 70.31 | 81.41 |
| Word2Vec [56] | 89.16 | 67.38 | 76.40 | 85.07 | 76.46 | 82.22 | 89.65 | 67.67 | 78.68 |
| 皮亚萨洛PM [57] | 91.00 | 69.60 | 79.23 | 88.38 | 79.74 | 85.45 | 91.23 | 70.33 | 82.80 |
| 皮亚萨洛PMC [57] | 91.71 | 69.64 | 80.19 | 88.76 | 80.21 | 85.93 | 91.33 | 70.86 | 83.04 |
| 皮亚萨洛PM+ PMC [57] | 93.55 | 72.19 | 80.89 | 89.95 | 80.55 | 86.04 | 92.89 | 71.00 | 84.81 |
| 皮亚萨洛维基百科+ PM + PMC [57] | 93.99 | 73.31 | 81.77 | 90.83 | 81.98 | 87.52 | 94.85 | 73.47 | 84.51 |
| Chiu 窗口‐2[47] | 92.94 | 70.58 | 80.59 | 89.62 | 81.04 | 86.22 | 92.33 | 71.74 | 82.75 |
| Chiu 窗口‐30[47] | 93.26 | 70.67 | 80.77 | 89.81 | 81.15 | 86.65 | 92.53 | 72.17 | 82.89 |
| Chen PM +重症监护医疗信息库 III [58] | 94.68 | 71.88 | 82.13 | 90.47 | 81.17 | 84.51 | 92.97 | 73.10 | 83.37 |
| Aueb 维度‐200[59] | 91.79 | 70.10 | 78.65 | 88.09 | 80.69 | 84.25 | 94.40 | 72.76 | 82.29 |
| Aueb 维度‐400[59] | 92.56 | 70.51 | 78.91 | 88.41 | 80.80 | 84.41 | 94.67 | 73.01 | 82.68 |
最佳结果以粗体突出显示。
如表 7 所示,预训练词嵌入是最显著的特征,可有效用于命名实体识别和HNER任务等下游任务。我们使用双向LSTM‐CRF(词 +字符 +词性)模型取得了最佳结果。我们通过依次从模型中移除医学与非医学词嵌入,然后在所提出的数据集上评估模型,研究了它们对双向LSTM‐CRF(词 +字符 +词性)模型性能的贡献。在这方面,我们评估了包含字符嵌入和词性标注的模型。表 8 显示了不同词嵌入在测试集上的预测性能。总体而言,使用非医学预训练词嵌入的模型比使用医学预训练词嵌入的模型取得更高的结果。实验结果表明,医学词嵌入有助于提升模型在疾病或综合征、体征或症状以及药理物质健康命名实体识别任务中的性能。我们根据性能对词嵌入进行排序如下:(1)“Pyysalo Wiki +PM+ PMC”在9次实验中的6次取得了最高结果;(2)“Chen PM + MIMIC III”在9次实验中的2次取得了最高结果;(3)“Pyysalo PM + PMC”在9次实验中的1次取得了最高结果。这三种词嵌入在疾病或综合征、体征或症状以及药理物质HNER任务中,甚至比其余所有词嵌入组合在一起更强大。
词嵌入对每种命名实体类型识别的贡献也各不相同。“Chen PM + MIMIC‐III”在疾病或综合征命名实体的识别上比其他命名实体更具作用。“Pyysalo Wiki + PM + PMC”在体征或症状以及药理学物质命名实体的识别上比其他命名实体更具作用。
我们还通过比较BiLSTM‐CRF(word + char+ POS)模型与其变体在疾病或综合征、体征或症状以及药理物质HNER中的性能,研究了微调嵌入的影响,其中“Pyysalo Wiki + PM + PMC”和“Chen PM +” MIMIC‐III” 词嵌入在模型训练期间未进行微调,如表9所示。在当前数据集上,两种词嵌入与模型的对比结果表明,微调嵌入对双向LSTM‐CRF(词+字符+POS)模型的性能有一定影响。当模型使用微调嵌入时,双向LSTM‐CRF结合“Pyysalo Wiki + PM+ PMC”的F1值在疾病或综合征、体征或症状以及药理物质健康命名实体识别任务上分别提升了0.99%、1.45%和1.95%。当模型使用微调嵌入时,双向LSTM‐CRF结合“Chen PM +MIMIC III”的F1值在疾病或综合征、体征或症状以及药理物质健康命名实体识别任务上分别提升了0.39%、1.16%和0.92%。
| 词嵌入 | 疾病或综合征 | 体征或症状 | 药理学物质 | ||||||
|---|---|---|---|---|---|---|---|---|---|
| P | R | F | P | R | F | P | R | F | |
| Pyysalo 维基百科+ PubMed + PubMed Central | |||||||||
| 未微调 | 92.24 | 71.84 | 80.78 | 88.87 | 79.87 | 86.07 | 93.08 | 71.41 | 82.56 |
| 已微调 | 93.99 | 73.31 | 81.77 | 90.83 | 81.98 | 87.52 | 94.85 | 73.47 | 84.51 |
| Chen PubMed +重症监护医疗信息库 III | |||||||||
| 未微调 | 91.37 | 70.21 | 81.74 | 88.45 | 80.87 | 83.35 | 92.81 | 72.68 | 82.45 |
| 已微调 | 94.68 | 71.88 | 82.13 | 90.47 | 81.17 | 84.51 | 92.97 | 73.10 | 83.37 |
5. 结论
本文讨论了先进的神经网络方法,即双向LSTM‐CRF,该方法能够通过词嵌入、字符嵌入以及结合词性标注的少量特征工程来完成健康相关命名实体识别任务。本体或知识库对于学习医学领域知识具有重要意义。我们的目标是预测和识别推文中支持公共卫生系统的医学术语。我们使用UMLS元词库本体对收集的数据集进行标注,以获取特定领域的知识。我们考虑了三种实体类型:疾病或综合征、体征或症状以及药理学物质。
在HNER任务范围内,我们提供了一个从推特收集的数据集,该数据集使用“healthcare”作为搜索词,时间范围为2018年7月12日至2019年7月12日,共获得676,251条推文、1,330,867个医学术语和19,727个唯一医学术语。本研究所提供的数据集规模大于此前提出的Micromed数据集。数据集的规模显著提升了模型的性能。为了生成实验数据集,我们对原始文本数据(推文)应用了预处理技术,包括文本清洗、归一化、过滤、去除非医学术语以及分词。
受此类工作的启发,我们采用了BiLSTM‐CRF模型,并与LSTM‐CRF模型在不同特征组合(如词嵌入、字符嵌入和POS标注)下进行了比较。双向模型以两种方式学习输入特征:一种是从开头到结尾,另一种是从结尾到开头,有助于更高效地学习特征。我们发现,当使用“Pyysalo Wiki+ PM + PMC”预训练词嵌入时,BiLSTM‐CRF(word + char + POS)模型在HNER任务上的表现优于其他模型。该最佳模型在疾病或综合征生物医学命名实体识别任务上达到了93.99%的精确率、73.31%的召回率和81.77%的F1分数;在体征或症状生物医学命名体识别任务上达到了90.83%的精确率、81.98%的召回率和87.52%的F1分数;在药理物质命名实体识别任务上达到了94.85%的精确率、73.47%的召回率和84.51%的F1分数。我们还证明了在HNER等下游自然语言处理任务中,微调是高效的。
我们发现,采用“Pyysalo Wiki + PM + PMC”词嵌入、基于CNN的字符嵌入和词性标注的双向LSTM‐CRF是预测疾病或综合征、体征或症状以及药理物质命名实体的最佳模型。
未来,我们将通过添加来自UMLS实体类型的多种医学实体来扩展HNER任务。我们将在目前主导大多数NLP任务的HNER任务上应用BERT、ELMO、XLNET等Transformer网络。
1325

被折叠的 条评论
为什么被折叠?



