26、西班牙真实世界健康记录去识别的命名实体识别

西班牙真实世界健康记录去识别的命名实体识别

1. 引言

电子健康记录(EHR)的采用对卫生系统和医疗专业人员至关重要,也是推进医学研究和改善医疗相关服务的重要信息来源。然而,为广泛用于医学研究,需去除可识别信息以保护患者数据隐私。

EHR 以多种格式存储信息,包含临床诊断、治疗、程序等内容,尤其涉及患者和医疗专业人员的隐私。但文本字段的非结构化性质使自动提取相关概念困难,手动提取概念不可复用、耗时且成本高。

自动提取和屏蔽与个人可识别数据相关的概念成为处理 EHR 信息的首要任务,即去识别。这不仅是道德前提,也是数据隐私立法的法律要求。在美国,《健康保险流通与责任法案》(HIPAA)要求删除 18 类受保护健康信息(PHI);欧盟的《通用数据保护条例》(GDPR)以及西班牙的《西班牙个人数据保护和数字权利保障组织法》(LOPD - GDD)禁止处理个人数据,除非屏蔽可识别信息。本文聚焦西班牙 EHR 的去识别,以符合 LOPD - GDD。

从自然语言处理(NLP)角度看,去识别临床文本是命名实体识别(NER)任务。NER 是识别文本中属于预定义语义类型的刚性指示符的过程,如人、组织、地点等。在 EHR 去识别过程中,PHI 类别被视为命名实体(NE)。

过去几十年,文本去识别有三种方法:基于规则的方法、机器学习(ML)系统和深度学习(DL)模型。早期去识别系统多基于规则,但这些方法在不同领域不可重现,因此研究人员开始设计 ML 算法,如决策树、隐马尔可夫模型、支持向量机和条件随机场(CRF)。近年来,深度神经网络在不同 NLP 任务中广泛应用,长短期记忆网络(LSTM)及其变体,如双向 LSTM(BiLSTM)和 BiLSTM - CRF

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值