2025亚太杯(中文赛)数学建模B题-疾病的预测与大数据分析。本文为个人解题笔记
这次建模工作围绕中风、心脏病和肝硬化三大疾病,系统完成了数据预处理、缺失值处理、类别编码和数值标准化,并通过统计描述与多样化可视化分析探索了各疾病的关键影响因素。在此基础上,分别构建了针对三种疾病的二分类预测模型,进行了模型训练、性能评估和特征重要性分析,同时提出了包括调参、样本平衡和模型融合等改进策略。进一步整合多数据源,分析了疾病的共病情况,利用统计、随机森林、贝叶斯网络和关联规则挖掘等方法深入探讨了疾病间的关系与共病风险。最终结合研究成果,撰写了面向WHO的预防建议报告,提出了健康生活方式推广、慢病早筛、多学科协同管理和政策支持等综合防控措施,为公共卫生决策提供了科学依据。
第一问建模解析
一、建模目标
对 stroke.csv
、heart.csv
和 cirrhosis.csv
三个数据集进行:
- 数据清洗与预处理
- 基础统计与可视化分析
- 寻找潜在影响患病概率的因素
二、数据预处理步骤
1. 数据加载
使用 pandas
载入 CSV 数据。
impo