1.数据采样类型
(1)有放回的采样:每次随机取一球后,将球又放回袋中,摇匀后,再取一球;
(2)无放回的采样:每次取一个球后并不放回袋中,下一次从剩余的球中再取一个。
2.变量关系
(1)关联associated(dependent):正相关和负相关
(2)独立independent:A,B是两事件,如果满足等式设A,B是两事件 如果满足等式P(AB)=P(A)P(B),则称事件A B相互独立。
3.采样方法
以下例作为说明:某种成品零件分装在20个零件箱中,每箱各装50个,总共是1000个 如果想从中取100个零件作为样本来进行研究。
(1)简单随机采样:将这20个箱子混合在一起,均匀混合,并将球从1-1000进行编号,然后用查随机表或抽签的方式的从零件堆中无放回的抽取100个作为抽样样本。
优点:操作简单,相应的标准误差计算简单。
缺点:总体过大,难编号。
(2)分层采样:从每箱中随机抽取5个零件,这样共20×5=100个样本。
定义:在抽样时,将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本。应用分层采样时,要求层间的差异要大,层内的差异要小。
各层样本数的确定方法:
1.1比例分配:各层样本数与该层总体单元数的比值相等。
1.2最优分配:
1.3奈曼分配:各层应抽样本数与该层总体数及其标准差的积成正比。
优点:实施操作很方便;能够较大程度地避免样本结构与总体结构严重失真情形发生;在对总体参数进行估计的同时,还能对各层目标量进行估计。
(3)整群采样:先从20个箱子中随机抽取2箱,这2箱零件组成样本。
定义:是将总体中各单位归并成若干个互不交叉、互不重复的集合,称之为群;然后以群为抽样单位抽取样本的一种抽样方式。应用整群抽样时,要求各群有较好的代表性,即群内各单位的差异要大,群间差异要小。
优点:实施方便,节省经费;
缺点:往往由于