机器学习数据集采样部分相关知识_数据集逻辑采样-优快云博客

本文链接：https://blog.youkuaiyun.com/qq_39117858/article/details/104838580

本文详细介绍了机器学习数据集采样的重要性及常见方法，包括逆变换采样、拒绝采样、重要性采样和马科夫蒙特卡洛采样法。针对失衡样本，讨论了过采样和欠采样策略，如SMOTE、随机过采样、随机欠采样、EasyEnsemble、BalanceCascade和NearMiss等。此外，还探讨了随机数生成的技巧和数据集的划分策略，如N折交叉验证。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

主要是记录一些采样方面的知识。参考来源如下：
https://blog.youkuaiyun.com/fengying2016/article/details/80593266
https://www.cnblogs.com/xinzhihao/p/11289108.html

文章目录

为什么要采样？

从概率论的角度来解释机器学习，就是我们的模型是学习了样本的概率分布，我们认为我们的目标都遵从这个概率分布从而能有效的进行分类或者预测。但是对于我们已有的数据来说，一次性采样得到的数据可能非常的庞大（相对于建立的模型来说会花费特别多的资源），也有可能比较小（小样本问题）。
讨论大样本的问题，这时候我们没法也没有必要对所有的数据进行拟合，我们可以利用采样的方式，从原始的数据集构造出一个训练集，然后用剩下的部分作为测试集。
所以问题就是，在已知数据概率分布的情况下，如何对数据进行采样。这里有一道阿里的面试题：

一道编程题，现在有包含很多个样本数据的数组，现在对这些数进行多次有放回采样，但每个数都有自己的采样概率，这个概率存在另外一个数组里面，总概率是1，问怎么实现这个采样过程。

常见的采样算法

一、逆变换采样

$对任意随机变量\xi ，设其概率密度分布函数为P\left( x \right) ，其积分分布函数为P\left( x \right) =∫x−\propto p\left( z \right) dz，只要有均匀分布的另一随机变量\theta ，则反函数\xi =F−1\left( \theta \right) 即可得到，且\xi 一定服从P\left( x \right) 分布。$