
介绍
你肯定很熟悉以下情况:你下载了一个比较大的数据集,并开始分析并建立你的机器学习模型。当加载数据集时,你的计算机会爆出"内存不足"错误。
即使是最优秀的人也会遇到这种事。这是我们在数据科学中面临的最大障碍之一,在受计算限制的计算机上处理大量数据(并非所有人都拥有Google的资源实力!)。
那么我们如何克服这个问题呢?是否有一种方法可以选择数据的子集并进行分析,并且该子集可以很好地表示整个数据集?
这种方法称为抽样。我相信你在学校期间,甚至在你的职业生涯中,都会遇到这个名词很多次。抽样是合成数据子集并进行分析的好方法。但是,那我们只是随机取一个子集呢?
我们将在本文中进行讨论。我们将讨论八种不同类型的抽样技术,以及每种方法的使用场景。这是一篇适合初学者的文章,会介绍一些统计的知识
目录
- 什么是抽样?
- 为什么我们需要抽样?
- 抽样步骤
- 不同类型的抽样技术
- 概率抽样的类型
- 非概率抽样的类型
什么是抽样?
让我们从正式定义什么是抽样开始。
抽样是一种方法,它使我们能够基于子集(样本)的统计信息来获取总体信息,而无需调查所有样本。

上图完美地说明了什么是抽样。让我们通过一个例子更直观的进行理解。
我们想要找到Delhi这个城市所有成年男性的平均身高。Delhi的人口大约为

本文介绍了抽样在数据科学中的重要性,特别是在处理大规模数据时的必要性。文章详细讲解了抽样的定义、目的和步骤,并探讨了八种抽样技术:简单随机抽样、系统抽样、分层抽样、整群抽样、便利抽样、配额抽样、判断抽样和雪球抽样,包括各自的适用场景和潜在偏差。抽样是一种经济有效的数据分析方法,能通过对总体的部分观察来推断总体特征。
最低0.47元/天 解锁文章
2780

被折叠的 条评论
为什么被折叠?



