采样技术

最新推荐文章于 2022-02-22 21:34:10 发布

原创最新推荐文章于 2022-02-22 21:34:10 发布 · 2.3k 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#采样

data cleaning 专栏收录该内容

11 篇文章

订阅专栏

本文介绍了抽样技术的四种主要类型：简单随机抽样、系统抽样、分层抽样和聚集抽样。在R中，可以使用sample()函数进行简单随机抽样，UPsystematic()函数实现自定义系统抽样，strata()函数进行分层抽样，以及cluster()函数进行聚集抽样。每个抽样方法都有其适用场景和特定的实现方式。

关于采样技术，目前主要有两大类抽样技术,即等概率抽样和非等概率抽样，在实际应用中，等概率是最常见的。
1.简单随机抽样
所谓简单随机抽样(SRS),是指所抽取的每个个体与总体的分布相同,如抽奖，这是一种最公平且概念上最简单的抽样法，可以直接套用统计学原理去进行估算与推论.在R中可以使用自带的sample()函数实现。
语法以及参数意义：
sample(x,size,replace=FALSE,prob=NULL)
x：抽样对象，为一个向量
size：抽样规模，即需要从总体x中抽取多少样本
replace：指定是否有放回的抽样，默认为无放回，当设置为TRUE时，则表示简单随机抽样是有放回的
prob：指定抽样元素的概率，默认是每个个体被等概率抽中
示例：

# 向量无放回
values <- runif(100,min = 10,max = 100)
sample1 <- sample(values, size = 10, replace = FALSE)
sample1

# 向量--有放回,不等概率
sample2 <- sample(c('A','B','C','D'), 500, replace = TRUE,
                  prob = c(0.5,0.2,0.2,0.1))
table(sample2)
prop.table(table(sample2))

#数据框
x <- runif(100)
y <- rnorm(100)
z <- rt(100,4)
df <- data.frame(x = x, y = y, z = z)
sample3 <- df[sample(1:nrow(df), size = 40),]
head(sample3)

2.系统抽样(systematic sampling)
系统抽样(ss)方法是一种简化的随机抽样法，最普遍的做法是从母群体的名单中，按照一定的间隔取出足够的个体组成样本。关于系统抽样，在R中可以使用sampling包中的UPsystematic()函数实现，下面是UPsystematic()函数的语法及参数意义：
UPsystematic(pik,eps=1e-6)
pik：为一向量，存放抽样的包含概率
esp：为一控制值，默认为1e-6

示例：

library(sampling)
x <- round(runif(1000,min = 1,max = 100))
#计算一阶包含概率
pik <- inclusionprobabilities(x,200)
#返回0-1值表示是否被抽样
s <- UPsystematic(pik)
head(getdata(x,s),10)

从上面的结果中,并不是系统抽样定义的那样,即等间隔的抽取样本。下面我们自定义系统抽样的函数

# x为待抽样的总体;gap为抽样间隔,默认为10;seed为种子数,用于从[1,10]之间随机挑选一个起始号设定随机种子,默认为1234
sys_sampling <- function(x, gap = 10, seed = 1234){
  set.seed(seed)
  i <- round(runif(1, min = 1, max = 10))
    ID <- numeric() #定义数值型向量
    sampling <- numeric() 
  while(i<=length(x)){
    ID[ceiling(i/gap)] <- i
    sampling[ceiling(i/gap)] <- x[i]
    i <- i + gap
  }
 return(data.frame(ID = ID, data = sampling))   
}
head(sys_sampling(x = x,gap = 7,seed = 3),10)

ceiling(x) #取整数,不小于x

3.分层抽样(stratified sampling)
分层或分组抽样是一种比SRS更精准的随机抽样法，所用的方法是跟据我们的研究性质，依照相关的条件把母群体中的个体分成不同的层别或组别(strata)，再分别从每一层别或组别中的个体随机抽出一定的个体来组成样本。在R中可以使用sampling包中的strata()函数实现，下面是strata()函数的语法及参数意义：
strata(data, stratanames=NULL, size,
method=c(“srswor”,”srswr”,”poisson”,”systematic”),
pik,description=FALSE)
data：待抽样的数据框
stratanames：指定数据框中的分层变量
size：指定每个层中的抽样数量，默认按原数据中分层变量水平的顺序指定抽样数量
method：指定抽取各层数据的方法，默认为无放回的简单随机抽样，还可以是有放回的简单随机抽样、泊松抽样和系统抽样
pik：如果选择系统抽样时，需要指定系统抽样的包含概率pik向量

示例：

Stratified <- rep(c('A','B','C','D'), c(100,200,300,400))
Values <- round(runif(1000, min = 1, max = 1000))
df <- data.frame(Stratified = Stratified, Values = Values)

#等比例抽样
n <- 400
size <- round(400*table(df$Stratified)/length(df$Stratified))
s <- strata(data = df, stratanames = 'Stratified', size = size, method = 'srswor')
head(getdata(data = df, m = s))

#非等比例抽样，随意指定抽样数量
s <- strata(data = df, stratanames = 'Stratified', size = c(50, 100, 50, 200), method = 'srswor')
head(getdata(data = df, m = s))

4.聚集抽样
聚集抽样也是跟据某种母群体的特性，将母群体中的个体分成不同的群组(clusters)，然后从这些群组中随机抽出部分的群组，再从被选中的群组中随机抽出足够的个体来组成样本。
从定义上看，聚集抽样与分层抽样很相似，但各自的组是完全两回事。在聚集抽样中，尽量保证组内数据差异特别大，而组间差异尽量小；在分层抽样中就恰恰相反，即组内差异尽量小，而组间差异要求很大。在R中可以使用sampling包中的cluster()函数实现，下面是cluster()函数的语法及参数意义：
cluster(data, clustername, size,
method=c(“srswor”,”srswr”,”poisson”,”systematic”),
pik,description=FALSE)
data：待抽样的数据框
clustername：指定数据框中的聚集变量
size：指定抽取多少个组
method：指定抽取的方法，默认为无放回的简单随机抽样，还可以是有放回的简单随机抽样、泊松抽样和系统抽样
pik：如果选择系统抽样时,需要指定系统抽样的包含概率pik向量
示例：

Clusters <- rep(c('A','B','C','D','E','F','G'), c(100,200,300,400, 100, 200, 300))
Values <- round(runif(1600, min = 1, max = 1000))
df <- data.frame(Clusters = Clusters, Values = Values)

#从7个聚集组中随机抽取3个组
s <- cluster(data = df, clustername = 'Clusters', size = 3, method=c('srswor'))
#查看随机抽取了哪三个组
unique(s$Clusters)
head(getdata(data = df, m = s))