西班牙真实世界健康记录去识别的命名实体识别
1. 引言
电子健康记录(EHR)的采用对卫生系统和医疗专业人员至关重要,也是推进医学研究和改善医疗相关服务的重要信息来源。然而,为广泛用于医学研究,需去除可识别信息以保护患者数据隐私。
EHR 以多种格式存储信息,包含临床诊断、治疗、程序等内容,尤其涉及患者和医疗专业人员的隐私。但文本字段的非结构化性质使自动提取相关概念困难,手动提取概念不可复用、耗时且成本高。
自动提取和屏蔽与个人可识别数据相关的概念成为处理 EHR 信息的首要任务,即去识别。这不仅是道德前提,也是数据隐私立法的法律要求。在美国,《健康保险流通与责任法案》(HIPAA)要求删除 18 类受保护健康信息(PHI);欧盟的《通用数据保护条例》(GDPR)以及西班牙的《西班牙个人数据保护和数字权利保障组织法》(LOPD - GDD)禁止处理个人数据,除非屏蔽可识别信息。本文聚焦西班牙 EHR 的去识别,以符合 LOPD - GDD。
从自然语言处理(NLP)角度看,去识别临床文本是命名实体识别(NER)任务。NER 是识别文本中属于预定义语义类型的刚性指示符的过程,如人、组织、地点等。在 EHR 去识别过程中,PHI 类别被视为命名实体(NE)。
过去几十年,文本去识别有三种方法:基于规则的方法、机器学习(ML)系统和深度学习(DL)模型。早期去识别系统多基于规则,但这些方法在不同领域不可重现,因此研究人员开始设计 ML 算法,如决策树、隐马尔可夫模型、支持向量机和条件随机场(CRF)。近年来,深度神经网络在不同 NLP 任务中广泛应用,长短期记忆网络(LSTM)及其变体,如双向 LSTM(BiLSTM)和 BiLSTM - CRF
超级会员免费看
订阅专栏 解锁全文
24

被折叠的 条评论
为什么被折叠?



