帕金森病模型选择与神经网络决策解释
1. 帕金森病模型选择
1.1 数据处理与特征选择
在处理帕金森病相关数据时,首先要对完整数据集进行缺失值检查。接着,使用基于决策树的分类器,该分类器对数据缩放不敏感,通过它可以获取分析中每个变量的重要性,进而剔除对分析价值不大的属性。
在特征选择方面,在应用分类算法之前,检查无关特征很重要,因为添加无关特征会增加数据维度,影响模型性能。采用XGBoost算法处理完整数据集,从训练好的模型中提取特征相关性,通过检查交叉验证分数和方差膨胀因子(VIF),最终选择了19个最重要的特征进行分析。
1.2 数据建模准备
将数据集分为X和y,其中X是用于建模的19个独立变量集合,y是输出类,取值为0和1。将独立变量和因变量按70:30的比例拆分,训练集有136行,测试集有59行。先使用训练集参数对所有数据点进行缩放,再转换测试集数据点,确保在验证前测试集对分类器是未知的。
1.3 超参数优化
使用Scikit - learn中的Grid - Search CV函数进行超参数优化。采用五折交叉验证,在一组被认为能提供最佳准确率的参数上训练分类器,将每个分类器的最佳参数集用于在训练集上训练分类器,并在测试集上进行验证。
1.4 分类算法
- 逻辑回归 :基于Sigmoid函数,可将所有实数输入映射到0到1的范围,主要用于处理概率问题。
- K近邻(kNN) :基于学习类比,将给定测试元组与训练元组进行比较来确定其类别。在
超级会员免费看
订阅专栏 解锁全文
1267

被折叠的 条评论
为什么被折叠?



