医疗大数据与机器学习解析:挑战与应对策略
1. 医疗数据挑战概述
医疗组织拥有大量以图像、扫描文档、图表和文本等形式存在的异构结构化数据。即便在电子健康记录中的数据,从分析角度来看,其分类和理解也并不理想。要解决这个问题,需要系统地努力,使这些信息变得可用、可操作且具有代表性。
2. 建立数据源真相
在成熟的 Analytics 1.0 环境中,分析数据应是干净、易于理解且值得信赖的。这需要通过迭代过程持续努力。许多组织首先会确定记录系统或真相来源,例如 PeopleSoft 用于员工信息,Cerner 用于患者信息。随着组织开展分析项目,会识别这些系统中的数据质量问题,并修改事务环境以生成更干净、更高质量的数据。
当组织从以系统为中心的视角转向企业级视角时,在某些领域建立深厚能力会带来优势。这些领域通常代表主数据,其特点是广为人知、高度可信且质量高。成功的主数据管理(MDM)项目早期,组织需要确定对企业至关重要的数据集,这一步需与分析团队和信息所有者合作完成。
进入 Analytics 2.0 环境,许多确定性受到挑战。记录系统可能是 Twitter 推文用于情感分析,或自然语言处理(NLP)生成的共存疾病列表。影响源系统生成干净数据的能力有限,这些数据源虽可作为记录,但永远不如主患者索引(MPI)类型的信息干净可靠。使用这些替代数据源的数据是一项挑战,数据的上下文使用和快速数据源的速度要求优先考虑数据保真度而非数据质量。
分析团队除了构建分析模型,还需向客户说明其局限性,帮助客户理解数据能支持哪些决策,不能做出哪些推断。这个解释过程是迭代的,需要与客户进行更深入的互动。数据分析团队要达到这一水平,必须详细了解业务
超级会员免费看
订阅专栏 解锁全文
827

被折叠的 条评论
为什么被折叠?



