基于机器学习的慢性阻塞性肺疾病(COPD)严重程度分级及传统企业分析
1. COPD 严重程度分级研究
在医疗领域,准确预测慢性阻塞性肺疾病(COPD)患者的严重程度至关重要。此前已有不少学者利用机器学习分类器进行相关研究。例如,FRDR 的准确率达到 90%;Zarrin 等人利用 XGBoost、SVM 等多种机器学习分类器对 COPD 患者和健康患者进行分类,其中 XGBoost 表现最佳,准确率达 91.25%;Haider 等人使用呼吸音对 COPD 患者和健康患者进行分类,SVM 和 LR 分类器的准确率达到 100%;Ali H. 等人提出投票集成分类器来识别 COPD 患者的严重程度,准确率为 91.0849%。
1.1 数据集描述
本研究使用了来自 Kaggle 数据集存储库的 COPD 患者数据集,该数据集公开可用。此数据集包含 101 个实例和 23 个属性,涵盖患者的 ID、年龄、吸烟史等信息,其中“COPD SEVERITY”属性定义了类别。不过,该数据集存在数据缺失问题。
1.2 预处理
为解决数据缺失问题,采用了期望最大化(EM)插补技术。这是一种多重插补方法,通过迭代找到模型参数的最大对数似然估计。具体步骤如下:
1. 给定参数估计 m(均值向量)、S(协方差矩阵)和数据集 Z。
2. 初始化每个案例 i。
3. 迭代计算:
- 计算 Eold = Yimiss|Yiobs, m, S 和 Cov = Yimiss Yiobs, m, S。
- 计算 Enew = Max Eold。
- 直到算法收敛或 Enew = Eold。
超级会员免费看
订阅专栏 解锁全文
641

被折叠的 条评论
为什么被折叠?



