11、机器学习基础:从数据处理到过拟合应对

机器学习基础:从数据处理到过拟合应对

1. 模型评估方法

1.1 迭代K折交叉验证与洗牌

当可用数据相对较少且需要尽可能精确地评估模型时,迭代K折交叉验证与洗牌方法非常有用。该方法多次应用K折验证,每次在将数据分成K份之前对数据进行洗牌。最终得分是每次K折验证得分的平均值。不过,这种方法最终需要训练和评估P×K个模型(P为迭代次数),计算成本较高。

1.2 选择评估协议的注意事项

在选择评估协议时,需要注意以下几点:
- 数据代表性 :训练集和测试集都应能代表手头的数据。例如,在对数字图像进行分类时,如果样本按类别排序,将数组的前80%作为训练集,后20%作为测试集,会导致训练集只包含0 - 7类,而测试集只包含8 - 9类。因此,通常应在将数据拆分为训练集和测试集之前随机洗牌。
- 时间顺序 :如果要根据过去预测未来(如明天的天气、股票走势等),在拆分数据之前不应随机洗牌,否则会造成时间泄漏,使模型在未来数据上进行训练。在这种情况下,应确保测试集中的所有数据都在训练集数据之后。
- 数据冗余 :如果数据中某些数据点出现多次,洗牌并将数据拆分为训练集和验证集会导致训练集和验证集之间存在冗余,相当于在部分训练数据上进行测试,这是不可取的。要确保训练集和验证集不相交。

2. 数据预处理、特征工程和特征学习

2.1 神经网络的数据预处理

数据预处理的目的是使原始数据更适合神经网络处理,包括向量化、归一化、处理缺失值和特征提取。
-

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值