一、案例背景
某大型综合医院拥有海量的患者电子病历数据以及先进的医疗检测设备所产生的数据。随着糖尿病发病率的逐年上升,医院希望通过数据挖掘技术,利用这些丰富的数据资源来构建一个糖尿病预测模型,以便在早期识别出潜在的糖尿病患者,提前进行干预和治疗,从而降低糖尿病的发病风险和并发症的发生率,同时优化医疗资源的配置,提高医疗服务的质量和效率。
二、数据挖掘实施步骤
(一)数据收集
- 电子病历数据:从医院的电子病历系统中提取过去 10 年的患者就诊记录,包括患者的基本信息(年龄、性别、身高、体重、家族病史等)、症状表现(多饮、多尿、多食、乏力、视力模糊等)、疾病诊断信息(是否患有高血压、高血脂、心脏病等其他疾病)、实验室检查结果(血糖、血压、血脂、肝功能、肾功能、糖化血红蛋白等指标)以及治疗方案和随访记录。数据涵盖了不同科室、不同年龄段和不同地区的患者,总计约 50 万份病历。
- 生活方式数据:通过问卷调查的方式收集患者的生活方式信息,如饮食习惯(每日碳水化合物、蛋白质、脂肪摄入量,是否吸烟、饮酒以及摄入量等)、运动习惯(每周运动次数、运动类型、运动时长等)、睡眠质量和时长等。共收集了约 20 万份有效问卷,并与相应的患者病历进行关联匹配。
- 基因数据:与专业的基因检测机构合作,获取部分患者的基因检测数据,包括与糖尿病相关的基因位点信息(如 TCF7L2、PPARG 等基因的特定突变位点),约 5 万份基因数据被纳入研究范围。这些基因数据为深入了解疾病的遗传易感性提供了重要依据。
(二)数据清洗
- 缺失值处理:对于电子病历数据中部分患者的身高、体重等基本信息缺失的情况,根据患者的年龄、性别和其他相关指标(如身体质量指数 BMI 的正常范围)进行估算补充;对于实验室检查结果中的少量缺失值,若同一患者在其他时间点有相同