用于糖尿病预测的稳健机器学习框架
1. 引言
糖尿病是一种以高血糖为特征的代谢紊乱疾病,主要是由于身体分泌和响应胰岛素的能力不足所致。它有多种表现形式,如糖尿病前期、I 型和 II 型显性糖尿病,以及妊娠期糖尿病。糖尿病会对眼睛、肾脏、神经、心脏和血管等重要器官造成长期损害,对孕妇和胎儿也有生命威胁。预计到 2045 年,全球约 48%的人口将患有糖尿病。
目前,临床检测糖尿病的方法是通过空腹血糖水平或口服葡萄糖耐量试验,但不同种族的血糖阈值可能不同,这给临床诊断带来了挑战。近年来,机器学习在糖尿病研究中得到了广泛应用,帮助医生做出快速准确的诊断决策,同时人们也可以进行个性化的糖尿病评估。
1.1 现有研究
近期关于糖尿病预测的研究主要集中在数据准备和分类两个方面。在数据准备方面,特征选择、异常值剔除和缺失值替换等方法可以提高预测的准确性。在分类方面,随机森林(RF)模型在糖尿病研究中的性能逐渐提高,但仍有改进空间。
1.2 本文贡献
- 结合 Spearman 相关性(SC)方法和多项式回归(PR)模型进行数据准备,SC 用于选择重要特征,PR 用于缺失值插补。
- 识别 RF 分类器的核心超参数,并使用网格搜索和重复分层 k 折交叉验证进行调优,以构建适用于预测问题的稳健随机森林模型。
- 重新标记 PIMA 印第安人数据集的目标值,以实现糖尿病前期的预测,从而进行更全面的临床诊断。
2. 算法
2.1 Spearman 秩相关
Spearman 相关性(SC)是一种基于秩的非参
超级会员免费看
订阅专栏 解锁全文
3589

被折叠的 条评论
为什么被折叠?



