利用机器学习技术预测慢性阻塞性肺疾病风险
1. 引言
电子健康记录(EHR)包含了患者大量的医疗历史数据,如症状、检查结果、诊断发现、处方和治疗流程等。近年来,人们对 EHR 患者数据分析的关注已持续了 11 年。数据驱动的医疗是医疗变革最有前景的方向之一,其目标是通过有效利用海量医疗数据,为患者提供最佳且个性化的治疗方案,这些医疗数据是治疗数亿患者所积累的集体知识。EHR 是推动这场数据驱动医疗革命的关键要素之一,但直接使用 EHR 也存在一些问题,如不公平性、噪声、不平等性和时间性等。
从 EHR 中准确提取疾病和药物反应表型的全面信息并非易事。不过,基于 EHR 的研究在全表型关联研究方面展现出了潜力,为疾病和药物反应特征带来了新发现,能快速为大规模荟萃分析提供病例和对照,并成功复制已确立的关联。因此,从患者 EHR 中提取表型或相关特征是进一步应用的关键输入步骤。
2. 方法
本次研究使用了来自不同医院的超过 80,000 名患者的数据。电子健康数据主要有四个来源:临床实践研究数据链 17(CPRD)提供的编码分析、临床测量和处方;编码的医院出院数据(医院事件统计,HES);以及印度约 4% 人口附近的死亡流程数据。这些数据展示了人类、年龄、性别和种族之间的关系。
患者在普通诊所注册一年后才有资格就诊。若患者已有冠状动脉疾病,则在其符合条件的日期就诊;否则,在首次被诊断为心肌梗死(MI)或不稳定型心绞痛且被认为符合条件后的六个月就诊,或者在首次被诊断为稳定型心绞痛后的符合条件日期就诊。选择六个月作为时间间隔,是为了将长期预后与急性冠状动脉综合征通常伴随的高风险历史区分开来。
CPRD 的统计数据用于将被诊断为
超级会员免费看
订阅专栏 解锁全文
1783

被折叠的 条评论
为什么被折叠?



