机器学习基础:从数据处理到过拟合应对
1. 模型评估方法
1.1 迭代K折交叉验证与洗牌
当可用数据相对较少且需要尽可能精确地评估模型时,迭代K折交叉验证与洗牌方法非常有用。该方法多次应用K折验证,每次在将数据分成K份之前对数据进行洗牌。最终得分是每次K折验证得分的平均值。不过,这种方法最终需要训练和评估P×K个模型(P为迭代次数),计算成本较高。
1.2 选择评估协议的注意事项
在选择评估协议时,需要注意以下几点:
- 数据代表性 :训练集和测试集都应能代表手头的数据。例如,在对数字图像进行分类时,如果样本按类别排序,将数组的前80%作为训练集,后20%作为测试集,会导致训练集只包含0 - 7类,而测试集只包含8 - 9类。因此,通常应在将数据拆分为训练集和测试集之前随机洗牌。
- 时间顺序 :如果要根据过去预测未来(如明天的天气、股票走势等),在拆分数据之前不应随机洗牌,否则会造成时间泄漏,使模型在未来数据上进行训练。在这种情况下,应确保测试集中的所有数据都在训练集数据之后。
- 数据冗余 :如果数据中某些数据点出现多次,洗牌并将数据拆分为训练集和验证集会导致训练集和验证集之间存在冗余,相当于在部分训练数据上进行测试,这是不可取的。要确保训练集和验证集不相交。
2. 数据预处理、特征工程和特征学习
2.1 神经网络的数据预处理
数据预处理的目的是使原始数据更适合神经网络处理,包括向量化、归一化、处理缺失值和特征提取。
-
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



