6、机器学习中的数据处理与模型评估

机器学习中的数据处理与模型评估

1. 特征选择与过拟合问题

在处理数据时,某些特征可能会带来过拟合问题。例如,ID 列可能会使结果变得难以处理,并且过多的列会削弱 k - NN 算法的效力。这种现象被称为过拟合,即使用过多特征实际上会降低对未来案例的预测准确性。可以将数据想象成被过多特征“共享”,每个特征可用的数据量很少。过拟合在分类和数值 Y 应用中都是需要关注的问题。

另外,如果包含 ID 列,还可能会出现计算问题。假设有 7000 个客户 ID,就意味着有 7000 个虚拟变量,内部数据矩阵将有超过 7000×7000 个条目,大约 5000 万个,按每个 8 字节计算,需要约 0.4GB 的 RAM。因此,通常需要移除这类列。

即使使用能直接接受因子数据的机器学习包,也必须留意包的操作以及我们输入的数据。对于具有大量水平的 R 因子要格外关注,它们可能看似有用,但也可能导致过拟合以及计算或内存问题。

2. 脊椎数据示例

2.1 数据介绍

考虑一个脊椎疾病的 UCI 数据集,该数据集包含用于将骨科患者分为 3 类(正常、椎间盘突出或脊椎滑脱,分别缩写为 NO、DH 和 SL)的六个生物力学特征值。这个例子与之前的例子类似,但有三个类别而非两个。在二分类问题中,我们根据感兴趣类别的概率是否大于 0.5 进行预测;而在三个或更多类别的情况下,可能没有一个概率高于 0.5,此时我们选择概率最大的类别。

2.2 数据分析

以下是具体的操作步骤:
1. 读取数据


                
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值