数据挖掘算法分类及糖尿病视网膜病变早期检测
1. 数据挖掘算法分类方法
1.1 酒店数据集处理
在处理酒店数据集时,为防止多数类主导学习算法导致结果不准确,采用了下采样技术。具体操作如下:
1. 随机从多数类(即未带儿童的预订数量)中移除观测值,通过无放回重采样多数类,直至生成的样本数量与少数类匹配。
2. 下采样后得到一个包含 9176 个观测值的精炼训练集,其中两类观测值的比例相同。
3. 对下采样后的训练集实施逻辑回归。
4. 获得混淆矩阵,以评估逻辑模型在测试数据集上的拟合度。由于逻辑模型通常不会过拟合数据,因此未将得到的模型应用于下采样训练数据集。
1.2 决策树拟合方法
决策树在酒店数据集上的拟合方法与蘑菇数据集类似,不同之处在于这里的决策树是在经过下采样的训练集上进行训练的。最后,获取逻辑模型和决策树对应的 ROC 曲线,并评估它们的曲线下面积(AUC)值,以确定哪个模型表现更好。
2. 不同数据集的分类结果
2.1 蘑菇数据集
2.1.1 逻辑回归结果
在蘑菇数据集上应用逻辑回归时,模型未能收敛。原因在于气味变量能将蘑菇完全分类到某一类别,这种情况被称为准完全分离情况。当对存在完全分离的数据集拟合逻辑回归模型时,导致完全分离的变量(如气味变量)的最大似然估计不存在,因为该预测变量的系数(β 值)越大,似然值就越大,所以该预测变量的最大似然估计不存在。
2.1.2 决策树结果
决策树结果显示,在将蘑菇分类为两类时,最重要的两个预测变量是气味和孢子颜色,这两个变量能最
超级会员免费看
订阅专栏 解锁全文
22

被折叠的 条评论
为什么被折叠?



