用于阿尔茨海默病阶段分类的机器学习计算框架
1. 引言
研究阿尔茨海默病(AD)及其阶段,传统深度学习模型虽被提出,但因该领域数据获取受限,且深度学习模型需大量数据才能保证性能,所以提出了一种集成不同经典机器学习模型以及处理缺失数据插补方法的机器学习计算框架。此框架旨在对AD阶段进行多类预测,区分包括认知正常(CN)、轻度认知障碍(MCI)和阿尔茨海默病(AD)等阶段,并以准确率、精确率和F1分数等指标评估模型性能。
2. 集成学习模型与特征选择
2.1 数据来源与问题
使用由阿尔茨海默病纵向演变预测项目与阿尔茨海默病神经影像倡议(ADNI)合作提供的数据。数据集特征分为认知测试、MRI、基因和脑脊液(CSF)等类别,但数据集中存在28%的缺失值,仅20%的行数据完整,这给分析带来挑战。
2.2 数据处理流程
数据处理流程如下:
graph LR
A[数据获取] --> B[数据转换]
B --> C[数据归一化与特征选择]
C --> D[模型训练与评估]
2.3 特征选择方法
采用Boruta算法进行特征选择,具体步骤如下:
1. 扩展信息系统,添加所有变量的副本(即使原始属性数量少于5个,也至少添加5个影子属性)。
2. 打乱添加的属性,消除其与响应的相关性。
3. 在扩展的信息系统上运行随机森林分类器,收集计算的Z分数。
4. 找到影子属性中的最大Z分数(MZSA),为每个得分