医疗数据治理——构建高质量医疗大数据智能分析数据基础

本文探讨了医疗数据治理在专病研究中的挑战,包括数据完整性、精准度、一致性与准确性问题。提出了医院、区域、专科联盟的数据治理分类,并强调了主数据、元数据管理与数据质量控制的重要性。同时,文章提到了医疗大数据治理标准的缺乏,并介绍了数据治理能力评估模型,以提升医疗数据治理水平。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

医疗数据治理——构建高质量医疗大数据智能分析数据基础

阮彤,邱加辉,张知行,叶琪 华东理工大学计算机科学与技术系,上海 200237

 

摘要以专病真实世界研究为背景,分析了医疗数据治理和数据可用性存在的各种问题。从医院数据治理出发,延伸到区域数据治理、专科联盟数据治理以及医疗标注数据与知识型数据的治理,总结了不同层次、不同层面数据治理的共性方法与个性方法。在此基础上,进一步探讨了数据治理中的主数据管理、元数据管理、数据质量控制等关键技术和关键环节。最后,给出了医疗大数据标准的基本框架,并基于现有的数据治理评估标准,对医疗大数据治理的现状进行了评估。

关键词 医疗数据治理 ; 数据可用性 ; 元数据 ; 主数据

640?wx_fmt=jpeg

论文引用格式:

阮彤, 邱加辉, 张知行, 叶琪. 医疗数据治理——构建高质量医疗大数据智能分析数据基础. 大数据[J], 2019, 5(1): 12-24

RUAN T, QIU J H, ZHANG Z X, YE Q. Medical data governance: building the data foundation for intelligent analysis of high quality medical big data. Big data research[J], 2019, 5(1): 12-24

640?wx_fmt=jpeg

1 引言


医疗健康大数据与人工智能呈蓬勃发展的态势。一方面,医院互联互通、国家与省市大数据中心的建设,为医疗健康大数据奠定了良好的基础;另一方面,个性化诊断、疾病预测与辅助决策支持系统等各类医疗人工智能应用也在不断涌现。

国家对发展医疗大数据和人工智能非常重视,近几年颁布了一系列指导意见和措施。国办发〔2016〕47号《国务院办公厅关于促进和规范健康医疗大数据应用发展的指导意见》提出建设全民健康保障信息化工程一期项目。作为该项目的前期工程, 2015年国家卫生和计划生育委员会统计信息中心启动了十省互联互通项目,开展相关技术的验证工作。截至2016年,该项目已经接入上海、湖南、湖北、江苏、浙江、福建、重庆、内蒙古、辽宁、北京10个省级健康医疗大数据平台,目前已完成所有省级健康医疗大数据平台的接入。为深入贯彻落实国办发〔2016〕47号文件精神,加快国家健康医疗大数据中心及产业园建设试点项目对接工作,2016年10月,福建、江苏以及福州、厦门、南京、常州被确定为健康医疗大数据中心与产业园建设国家试点工程第一批试点省市。2017年12月,健康医疗大数据中心第二批国家试点启动。根据部署,健康医疗大数据中心第二批国家试点已在山东、安徽、贵州3个省开展,并与第一批试点的江苏、福建一起作为东、南、西、北、中5个健康医疗大数据区域中心建设及互联互通试点省。目前,医疗领域已经积累了大规模临床数据,并有了国家级别的数据采集和汇聚方案,保障了持续的数据增加和更新,并且为人工智能应用提供了基础。

然而,在利用前期基于医院或国家卫生健康委员会的区域平台数据进行临床科研和人工智能应用开发的过程中,即使在病人数量足够的情况下,数据的可用性依然存在问题。这里既有数据本身的问题,也有数据流程管理问题和数据使用权限问题。例如,若研究特定治疗方案对心衰与大肠癌的影响,需要从电子病历中分别构建心衰队列和大肠癌队列。对于心衰队列,入组条件是电子健康档案中患有心衰疾病的病人,控制变量是是否吃了与心衰治疗相关的中药,终点事件是180天再入院率。对于大肠癌队列,入组条件是电子健康档案中患有大肠癌的病人,控制变量是是否手术,终点事件是复发或3~5年生存期。在构建队列的过程中存在以下问题。

数据完整性不够。例如,诊断心衰需要心脏彩超数据,诊断大肠癌需要病理和死亡数据。对于医院来说,心脏彩超数据和病理数据是有的,但这些数据被分散在不同的检查系统中,需要将这些数据集成在临床专病库中。此外,与终点事件相关的死亡信息和再入院率数据存在缺失的情况。如果病人不是在医院死亡的,系统就无法知道病人的生存状态,因此死亡信息无法被获取。病人也有可能到其他医院就诊,这样就无法统计再入院率这个数据了。如果是区域平台,各省只有检验数据,没有检查数据。

数据精准度不够。例如,心衰与心功能分级有关,而肿瘤需要分期,在电子健康档案数据里面,很多病人的心功能分级数据或肿瘤分期数据是没有的。

数据一致性不够。以患者基本信息和时间信息为例,由于填错或者其他原因,患者的基本信息在不同系统中可能是不一样的,而不同系统的时间格式也可能是不一致的。

数据准确性不够。病人的很多ICD编码不在国家卫生健康委员会编码规范里,此外,很多疾病名称与ICD编码系统中的疾病名称不一致。

综上所述,随着医疗大数据与人工智能技术的深入发展,数据可用性已经成为制约医疗健康大数据智能分析应用发展的瓶颈。数据存在各种各样的问题,具体如下。

原始数据在录入过程中有数据错漏、数据不完整等问题。

由于缺乏统一的元数据标准,数据融合困难。

由于缺乏统一的主数据管理,病人、医生等医疗应用中的核心数据实体难以被唯一标识并实时更新。

数据清洗缺乏统一的策略,导致数据被多次清洗,使用代价高。

由于缺乏元数据和主数据标准,即使数据被勉强放在一起,数据可达性也很差,无法知晓每个字段的确切含义和具体取值范围,难以基于简单的查询找到需要的数据。

大量医疗数据以文本、影像、图像等非结构化的方式存储,增加了管理和整合的难度。

另外,无论是在规划层面还是在操作层面,数据隐私管理、数据使用的权限与流程都缺乏指导性的技术标准和规范,由此导致虽然采集、存储了很多数据,但不知道谁可以用、应采用什么样的方法用。

总体来说,要让医疗大数据应用生根发芽,让数据驱动的医疗人工智能技术与应用落地,就必须从源头解决数据质量问题,解决在什么样的情况下可以用什么样的数据的问题,解决数据录入、采集、融合与使用过程中多个环节的数据监督与控制问题,这些问题都属于医疗数据治理问题。


评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值