9、数据挖掘算法分类及糖尿病视网膜病变早期检测

数据挖掘算法分类及糖尿病视网膜病变早期检测

1. 数据挖掘算法分类方法

1.1 酒店数据集处理

在处理酒店数据集时,为防止多数类主导学习算法导致结果不准确,采用了下采样技术。具体操作如下:
1. 随机从多数类(即未带儿童的预订数量)中移除观测值,通过无放回重采样多数类,直至生成的样本数量与少数类匹配。
2. 下采样后得到一个包含 9176 个观测值的精炼训练集,其中两类观测值的比例相同。
3. 对下采样后的训练集实施逻辑回归。
4. 获得混淆矩阵,以评估逻辑模型在测试数据集上的拟合度。由于逻辑模型通常不会过拟合数据,因此未将得到的模型应用于下采样训练数据集。

1.2 决策树拟合方法

决策树在酒店数据集上的拟合方法与蘑菇数据集类似,不同之处在于这里的决策树是在经过下采样的训练集上进行训练的。最后,获取逻辑模型和决策树对应的 ROC 曲线,并评估它们的曲线下面积(AUC)值,以确定哪个模型表现更好。

2. 不同数据集的分类结果

2.1 蘑菇数据集

2.1.1 逻辑回归结果

在蘑菇数据集上应用逻辑回归时,模型未能收敛。原因在于气味变量能将蘑菇完全分类到某一类别,这种情况被称为准完全分离情况。当对存在完全分离的数据集拟合逻辑回归模型时,导致完全分离的变量(如气味变量)的最大似然估计不存在,因为该预测变量的系数(β 值)越大,似然值就越大,所以该预测变量的最大似然估计不存在。

2.1.2 决策树结果

决策树结果显示,在将蘑菇分类为两类时,最重要的两个预测变量是气味和孢子颜色,这两个变量能最

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值