中医临床数据仓库中的数据挖掘探索
1. 中医临床数据仓库的基础架构
1.1 核心数据表与多维数据模型
核心数据表为详细的临床数据提供了存储模式。为支持联机分析处理(OLAP)等多维分析任务,设计了多个核心关系型多维数据模型作为数据集市的基础。这些模型对应中医临床研究的多个重要主题分析应用,如临床方剂、临床诊断和临床发现等。
以临床方剂关系型多维数据模型为例,它采用雪花模式定义,包含一个临床方剂事实表以及多个相关维度表,如患者、医生、时间、诊断、草药和治疗方法等。草药维度进一步被规范化为多个相关表,如草药性味表、草药功效表和草药归经表。该数据模型用于临床方剂处方数据分析,可探索特定疾病的常用方剂、草药(及其属性)和治疗方法。
1.2 抽取 - 转换 - 加载(ETL)工具
ETL 是成功的数据仓库系统的核心组件。由于临床数据结构转换复杂、数据检查灵活、异构数据源集成以及术语标准化处理的需求,即使是商业 ETL 系统也难以胜任这些任务。因此,使用 Java 和 Eclipse Rich Client Platform 技术开发了一个 ETL 工具——医疗集成器(MI),以实现所需功能。
MI 的关键组件包括:
- 数据连接配置
- 数据检查
- 数据集成(如操作数据源整合、数据转换和加载)
- 数据清理
- 数据标准化
- 数据转换接口
由于分布式电子病历(SEMR)数据在不同医院和病房收集,数据集成组件将多个操作数据源(如住院和门诊 SEMR 数据)集成到一个统一的数据结构中,并将转换后的数据加载到中医临床数据仓库(TCM CDW)中。
超级会员免费看
订阅专栏 解锁全文
1022

被折叠的 条评论
为什么被折叠?



