训练集与测试集数据分布不同时的问题_训练集和测试集分布不一样,如何处理-优快云博客

本文链接：https://blog.youkuaiyun.com/poosdsd/article/details/142891959

一、当实际任务数据与其他数据分布不同时的数据集划分

以猫咪分类来举例，左边是从网络爬取的猫猫数据及图像，一般为专业人员拍摄，因此较为清晰，且背景不杂乱；而我们在部署工程时，比如设计一个猫猫识别软件，由用户拍摄，为右边的那样，很多模糊和背景杂乱。对于一个任务，需要根据其目的来构建val、test集，并且要保证val、test集的数据来自同一分布，因为test集是用来：比如我有好几个模型可以选择，但是最后我会根据哪个模型再test集上表现最好，来选择哪个模型，因为test集是更符合实际任务的的数据集，而val数据集用来评测模型的优劣，要尽可能保证模型在val上具有好的特性，同时在test也要好，因此val和test数据分布必须保持一致。

当我们实际任务的数据很少，而其他数据分布的数据很多时，应该怎么划分哪，图中有两种option，第一种是将来自网络和手机拍摄的图像合在一起，然后random.shuffle打乱按照一定比例分到train、val、test，但是这种方法显然是不合理的，因为我们实际任务分布为由手机拍摄的图片，而如果混合打乱，在val、test种就大部分为从网络爬取的高清数据，这样的评价是错误的。因此第二种诞生，即val、test用全部是用从手机拍摄的猫咪图像，而分一部分从手机拍摄的猫咪图像去train集进行训练（例如总共有10000张手机拍摄的低分辨率图像，分5000给train，剩下的5000给test和val）。

还有一个知识是，原来机器学习阶段，常常把train、val、test分为6:2:2，或者不要test，将train、val分为7：3。但是随着深度学习发展，以及数据集的丰富，其实比例不用7：3，只需要保证val、test的数量能够满足测试的需求，能够通过这些数据集得到的指标反应真实情况即可，例如有100万的数据，我可以分给train集98万，因为网络是很吃数据的，而用预测或选择不同的模型val、test集各1w就已经足够了。

二、当val与train数据分布不同时的偏差、方差等分析

还是以猫咪分类为例，我们假设人对猫咪的识别错误率为0%，并将其约等于贝叶斯最优错误，那么一切的系统都只能逼近这个错误率，而不能比他更小。我们知道，val和train的数据分布不同时，如果Dev error和train error差距很大，可能有两个原因，一个是模型方差大，也即泛化性差；第二个原因可能是由于数据分布不同导致的，可能模型泛化性并不差，只是缺少val（dev）集的数据，所有没有达到很好效果，因此我们需要确定是哪个问题。