抽样概念及常见方法

最新推荐文章于 2022-11-18 17:08:24 发布

原创最新推荐文章于 2022-11-18 17:08:24 发布 · 2.7k 阅读

4 ·

CC 4.0 BY-SA版权

笔记同时被 2 个专栏收录

22 篇文章

订阅专栏

统计

9 篇文章

订阅专栏

本文详细介绍了抽样调查的概念及其与普查的区别，强调了抽样调查的经济性和时效性。抽样误差和非抽样误差是影响调查准确性的关键因素，其中非抽样误差包括研究员、访问员和被访者三方面。文章探讨了各种抽样方法，如概率抽样（简单随机抽样、系统抽样、PPS抽样、分层抽样）和非概率抽样（方便抽样、判断抽样、配额抽样、滚雪球抽样）。每种方法的特点、适用情况和潜在问题都有所阐述，以助于选择最合适的抽样策略。

抽样的概念
抽样调查与普查
非抽样误差
抽样形式

指在不能进行全数调查时，为了推测总体的倾向，抽取真实地代表调查总体的调查对象。

抽样调查特点:

抽样调查花费较少
迅速地获取信息
争取时效是非常重要的
总体太大，实际上无法实行普查
个别对象难以接触
实验是破坏性的
科学地抽样--样本具有代表性，——可控制抽样误差

普查特点:

总体较小
总体差异（方差）较大
抽样误差较大

误差：

抽样误差（可控制）
非抽样误差

非抽样误差：

非抽样误差是指除抽样误差外，由于人为的差错引起的误差，也叫偏差
问题的定义、处理问题的途径、量表问卷中问题的设计、访问的方法、实施的质量控制、数据处理和分析的失当都会造成非抽样误差
非抽样误差包括研究员、访问员、被访者三方面的误差
为确保调查结果的准确性，应该消除非抽样误差，至少应尽可能使之最小化

研究者的差错带来的非抽样误差：

代用信息误差：调研问题所需的信息与研究者收集信息之间的变差。如：将选择误解为偏好。
测量误差：所搜寻的信息与研究者测量生成的信息之间的变差。如：观念量表使用错误
总体定义误差：所要研究的真正总体与方案定义的总体之间存在变差。如：城市居民。
抽样框误差：所定义的总体与所使用的抽样框隐含的总体之间存在的变差。如：电话调查不能代表居民总体。
数据分析误差：将问卷原始数据转换为调查结果时产生的误差。如：使用不当的统计方法导致不正确的结果、解释和结论。

访问员和被访者差错带来的非抽样误差

问答误差：询问时没有真正理解问题含义，或需要进一步询问更多信息是没有去问。如：没有按照问卷措辞提问。
记录误差：在倾听、理解和记录被访者回答时造成的误差。如：被访者给出的是中性回答，但记录为可能会。
欺骗误差：调查数据造假等
回答误差：被访者回答不正确或记录错误、分析错误。
无回答误差：包括完全无回答（拒访）、部分无回答（部分问题无回答）。

非抽样误差——无回答误差的处理

无回答误差在调查实施中经常发生。
主要有两类：样本单元无回答、项目无回答
解决：访问员培训、多次访问、替换样本、敏感问题
解决：二重抽样、加权调整、估算法

抽样过程：

两个基本原则：

实现抽样的随机性原则

等概率或不等概率

实现抽样效果最佳原则

固定费用，抽样误差最小

确定精度下，调查费用最小

抽样单元：

为了便利地实现随机抽样，常常把总体划分为有限个互不重叠的部分，每一部分叫做一个抽样单元。

例全国抽样：

一级抽样单元：省

二级抽样单元：区

三级抽样单元：街道/居委会

四级抽样单元：家庭户

五级抽样单元：被访者

抽样框是包含全部抽样单元的资料：

一般说来，普查可以提供抽样框资料
表现形式名单、地图、统计年鉴等
很多时候，很难获得完整的抽样框资料

抽样样式

概率抽样（probability samples）

等概率抽样——所有的样本单位所出现的机会是相同的。
不等概率抽样——可以计算每个样本单位所出现的概率。
按照随机/概率规律的原则，从总体中抽取样本。可以对总体进行推断。

非概率抽样（non probability sample）

所有的样本单位所出现的机会是不确定的。
不能计算每个样本单位所出现的概率，因为选择样本的方法是非随机的。

方便抽样：利用会议、展览、商场、街头抽样；报刊问卷调查，网络问卷。

判断抽样：依据研究者主观判断，选取可代表总体的个体作为样本。

配额抽样：按照调查对象的某种属性或特征，将总体中所有个体分类，然后按照一定比例分别抽取样本。配额抽样有可能接近概率抽样的结果。前提是各类群同质，无需随机抽样；类型划分合理；配额符合总体中各类型的分布。

滚雪球抽样：又称裙带抽样、推荐抽样，是一种在稀疏总体中寻找受访者的抽样方法。

简单随机抽样

简单抽样方法和系统抽样方法是指，对所有调查对象编上一连串的号码，据此从名册中进行随机抽样的方法。

在可以对所有调查对象进行编号的情况下所使用的抽样方法。通过查随机数表等的方法，随机地抽取调查对象的号码。

例如，假设在顾客名册中登记了500人，给他们编上一连串的号码。查随机数表，选出50个不重复的随机数，所对应的号码的人即为样本。虽然简单抽样方法可以均匀地抽取代表总体的样本，是一种精度较高的方法，但由于样本量越多查随机数表的次数也越多，进行起来较为繁琐。

当研究总体不太大，或总体单元的元素有完备的名单是，简单随即抽样非常适用。

系统抽样(等距抽样)

系统抽样方法先求出抽样间隔值（为名册登记人数÷抽取人数所得的值舍去小数点后面数字的整数），接着，在这个范围内选择一个随机数作为起始号码。起始号码加抽样间隔值，所对应的即为样本。进而，反复地在这个值的基础上加上抽样间隔值，以抽足所有的样本。抽取的样本量多于要求的样本量时，使用简单抽样方法从中抽取需要剔除的样本。

例如，假设从一个500人的顾客名册中挑选50人，抽样间隔值是500÷ 50=10，从随机数表中选出起始号码4。接着是4+10=14，再接着是14+10=24……依此类推，直到494为止，抽取50人。

另外，系统抽样方法的规则较简单，但如果名册是按一定的规律进行登记的话，也会发生问题。例如，员工名册等是按部门单位进行登记的，当每个部门的人数相等，而且按职务大小进行排列时，起始号码为1，如果以部门人数作为间隔，最终选出的将只是部门的头儿。因此，需要弄清楚名册的特征之后再选择抽样的方法。

简单随机和系统抽样特征及实施程序

用系统抽样方法只能抽出具有某种特定性质的样本的例子：通过员工名册抽样（从1000人中抽取100人），从NO.3开始，抽样间隔为10的情形，抽出的都是代理科长。

简单随机和系统抽样特征及实施程序：

P P S 抽样

这是抽样单位在2个以上时的抽样方法，通过缩小区域和调查对象的范围，从大规模的总体中高效率地进行抽样。它是一种使用辅助信息，从而使每个单位均有按其规模大小成比例的被抽中概率的一种抽样方式。

PPS 抽样实际上是整群抽样与简单随机抽样或等距抽样（系统抽样）配合的两阶段抽样。

PPS 抽样是指按概率比例抽样，属于概率抽样中的一种。

例：

分层抽样：

分层原则：层内差异小，层间差异大

优点

子总体内的抽样单元之间差异比较小，子样本具有较好的均匀性，可能得到较高精度的估计量
有效消除特殊个体的影响
可对各层的特性加以比较
实施管理方便

如何选择分层变量：1）选择那些与研究主题高度相关的变量，比如研究收入问题，考虑学历、年龄、性别等影响收入的基本属性。2）成本：分层因素考虑越多，选取的样本量则会越多，学历（分为高中低3类）、收入（高中低3类）、性别（男女2类）总共18类，每类样本量至少保证30人以上18*30=540人。将与研究主题不太相关的主题可以不考虑，或者将因素的分类减少。

区域抽样

在访问调查中，由于居民基本登记名册使用起来不方便，一级抽样选出街区后，在二级抽样中抽取样本（家庭户和个人）时，也有用住宅地图来代替抽样名册的情况。这种将住宅地图用作抽样名册的方法，称为区域抽样。

区域抽样，用来抽取单门独户的房子、有院子的房子，有车子的房子等家庭户有时也很方便。首先，用从市面上买来的住宅地图通过随机数从中选出一页，接着，随机抽取起始住宅。在住宅地图上定好起始住宅后，预先用箭头按顺时针方向标明访问住宅的路线。抽样间隔定为3～10所住宅。

特征：

在没有调查对象清单的访问调查中使用

优点：

1. 没有居民基本登记名册，也可以实施访问调查
2. 便于寻找通过外表即可看出是否符合条件的家庭户（有院子的家庭、有车的家庭等）

缺点：

1. 有可能偏向经常在家的调查对象无法从外表看出是否符合条件和以个人为对象进行调查时，效率低下（访问家庭与调查条件不符，调查对象正在外出等）

时间抽样：

按时间间隔抽取行人的时间抽样、以及通过随机数造出电话号码进行调查的RDD等。

概念：

时间抽样是指，比如，从50个行人中邀请1人接受调查时所使用的抽样。由于不清楚调查总体的情况，所以不能计算抽样比。但是，只要样本量足够大，并尽量按相等的抽样间隔进行抽样，就可以保证样本的代表性。为了使样本具有代表性，从经验上讲，样本量需要500人以上、最好能达到1000人。

如果事先测定好调查地点从周一到周日各天不同时间段的行人数量，对于确定所需的访问员人数、抽样间隔和调查结果回收目标人数会有较大的帮助。例如，如果用不同调查地点的行人数除以调查结果回收目标人数，就能计算出每隔多少人邀请1个人接受访问为好。当事先观察到的不同时间段的行人数，以及不同时间段的回收样本构成和实际情况不相符时，则还要通过“加权”对统计结果进行调整。

特征：

街头由于在不同时间段，行人以及到场者的人数都有所不同，所以必须考虑在不同的时间段，抽样比也要有所不同。

调查、到场者调查等，按一定的时间间隔对到达其场所的人进行抽样

优点：

不需要总体名单，根据时间段给人群编号

缺点：

调查总体的人数不清楚（可估算）