在机器学习与遥感影像分类实验中,很多同学往往把关注点放在“模型选型”上,却忽视了一个最根本的问题:如何划分数据集。 如果划分不合理,就算模型再复杂,得到的实验结果也可能存在偏差甚至“虚高”,难以在真实场景中复现。
在之前的几篇文章里,我们一直使用 train_test_split 简单地划分训练集和测试集。事实上,这种方法虽然直观,但存在两个不足:
-
偶然性强:有可能一次划分恰好“运气好”,导致结果比实际更高。
-
类别不均衡时不稳健:如果某一类样本数量很少,随机划分可能把这类几乎全部分配到训练集或测试集,造成模型无法正常学习。
本篇我们结合 KSC 高光谱真实数据,深入介绍 sklearn.model_selection 提供的各种科学划分方法,包括:
-
单次分层划分(train_test_split)
-
KFold 交叉验证
-
StratifiedKFold 分层交叉验证
-
Pipeline + cross_val_score 的标准实践 并通过图示直观展示交叉验证的划分方式。
往期内容和数据链接如下:

最低0.47元/天 解锁文章
1026

被折叠的 条评论
为什么被折叠?



