数据采样

本文详细介绍了数据采样的不同类型,包括有放回和无放回采样,以及分层采样、整群采样、系统采样的优缺点。同时,探讨了变量关系和采样方法,并讲解了Fisher实验设计的三个原则。此外,正交和均匀实验设计在减少实验次数、优化生产条件方面的作用也得到了阐述。最后,讨论了样本统计推断中的p值和置信区间概念。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1.数据采样类型

(1)有放回的采样:每次随机取一球后,将球又放回袋中,摇匀后,再取一球;

(2)无放回的采样:每次取一个球后并不放回袋中,下一次从剩余的球中再取一个。

2.变量关系

(1)关联associated(dependent):正相关和负相关

(2)独立independent:A,B是两事件,如果满足等式设A,B是两事件 如果满足等式P(AB)=P(A)P(B),则称事件A B相互独立。

3.采样方法

以下例作为说明:某种成品零件分装在20个零件箱中,每箱各装50个,总共是1000个 如果想从中取100个零件作为样本来进行研究。

(1)简单随机采样:将这20个箱子混合在一起,均匀混合,并将球从1-1000进行编号,然后用查随机表或抽签的方式的从零件堆中无放回的抽取100个作为抽样样本。

优点:操作简单,相应的标准误差计算简单。

缺点:总体过大,难编号。

(2)分层采样:从每箱中随机抽取5个零件,这样共20×5=100个样本。

定义:在抽样时,将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本。应用分层采样时,要求层间的差异要大,层内的差异要小。

各层样本数的确定方法:

1.1比例分配:各层样本数与该层总体单元数的比值相等。

1.2最优分配:

1.3奈曼分配:各层应抽样本数与该层总体数及其标准差的积成正比。

优点:实施操作很方便;能够较大程度地避免样本结构与总体结构严重失真情形发生;在对总体参数进行估计的同时,还能对各层目标量进行估计。

(3)整群采样:先从20个箱子中随机抽取2箱,这2箱零件组成样本。

定义:是将总体中各单位归并成若干个互不交叉、互不重复的集合,称之为群;然后以群为抽样单位抽取样本的一种抽样方式。应用整群抽样时,要求各群有较好的代表性,即群内各单位的差异要大,群间差异要小。

优点:实施方便,节省经费;

缺点:往往由于

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值