【R语言】t检验_r语言t检验-优快云博客

本文链接：https://blog.youkuaiyun.com/lemon9597/article/details/145581471

一、基本介绍

t检验（t-test）是用于比较两个样本均值是否存在显著差异的一种统计方法。

t.test()函数的调用格式：

t.test(x, y=NULL, alternative=c("two.sided", "less", "greater"), mu=0, pair=FALSE, var.equal=FALSE, conf.level=0.95, ...)

参数详解：

x：用于均值比较的数值向量。
y：用于均值比较的数值向量。当y=NULL时，表示为单样本t检验。
alternative：表示指定假设检验的备择检验类型。two.sided：双侧检验（默认）；less：左侧检验（备择假设为样本均值小于mu）；greater：右侧检验（备择假设为样本均值大于mu）。
mu：一个对比用的数值，默认为0。当检验为单样本t检验时，表示x所代表的总体均值是否与mu中指定的值相等；当检验为双样本t检验时，表示x和y代表的总体均值之差是否与mu中指定的值相等。
pair：逻辑值，指定是否为配对样本，默认为FALSE，即独立样本。
var.equal：逻辑值，指定两个样本的方差是否相等（默认为TRUE，即假设方差相等；如果方差可能不相等，应设置为FALSE以执行Welch t检验）
conf.level：置信区间的置信水平。

二、原假设与备择假设

在t检验中，原假设（null hypothesis，通常表示为H0）和备择假设（alternative hypothesis，通常表示为H1）是根据研究目的和所要检验的具体问题来设定的。

通常，原假设是希望被推翻的假设，而备择假设是研究者认为如果原假设被推翻则可能成立的假设。在进行t检验时，如果计算出的p值小于事先设定的显著性水平（如0.05），则可以拒绝原假设，接受备择假设（在统计上显著的意义上）。

1、单样本t检验

原假设：样本所来自的总体的均值等于某个已知值μ0，即μ=μ0。

备择假设：样本所来自的总体的均值不等于μ0（双侧检验）；或者小于μ0（左侧检验）；或者大于μ0（右侧检验）。

2、独立样本t检验

原假设：样本所来自的总体的均值等于某个已知值μ0，即μ=μ0。

备择假设：样本所来自的总体的均值不等于μ0（双侧检验）；或者小于μ0（左侧检验）；或者大于μ0（右侧检验）

3、非独立样本t检验

原假设：配对样本差值所来自的总体的均值等于0，即μd=0（其中μd表示配对样本差值的均值）。

备择假设：配对样本差值所来自的总体的均值不等于0（双侧检验）；或者小于0（左侧检验，即认为第一种情况或测量值平均上小于第二种）；或者大于0（右侧检验，即认为第一种情况或测量值平均上大于第二种）

三、单样本t检验

单样本t检验（One-Sample t-Test）用于比较一个样本的均值与已知的总体均值是否存在显著差异。

sample_data <- c(5.1, 4.8, 5.0, 5.3, 4.9)

# 总体均值
mu <- 5.0

# 执行单样本t检验
t.test(sample_data, mu = mu)

四、独立样本t检验

独立样本t检验（Independent Two-Sample t-Test）用于比较两个独立样本的均值是否存在显著差异。

group1 <- c(5.1, 4.8, 5.0, 5.3, 4.9)
group2 <- c(5.5, 5.2, 5.4, 5.6, 5.0)

# 执行独立样本t检验, 假设两组数据之间无差异
t.test(group1, group2, alternative="two.sided", var.equal = T)

使用R语言中内置的数据集InsectSprays，检验杀虫剂C与杀虫剂D的效果差异。

head(InsectSprays)
library(dplyr)
# 筛选杀虫剂C和D
data1 <- dplyr::filter(InsectSprays, spray %in% c("C", "D"))
# 独立样本t检验：假设使用杀虫剂C后的昆虫数目比使用杀虫剂D后的少
t.test(count ~ spray, data1, alternative="less", var.equal=T)

从以下结果可知，使用杀虫剂C后的昆虫数目（2.08）显著（P=0.0027<0.05）小于使用杀虫剂D后的昆虫数目（4.917），即杀虫剂C的效果比D好。

五、非独立样本t检验

非独立样本t检验又叫配对样本t检验。

下面用R语言内置的sleep数据集做演示：

现假设两种安眠药对增加睡眠时长的效果一样。

head(sleep)
t.test(extra ~ group, data = sleep, pair=TRUE, alternative="two.sided")

从下面结果可知，两种安眠药平均增加睡眠时长相差1.58小时，而且p=0.002833，远小于0.05，因此可以拒绝原假设，即这两种安眠药的效果不一样。

需要注意的是，因为是进行的双侧t检验，所以可以假设“两种安眠药对增加睡眠时长的效果一样”。如果要假设“第1种安眠药的效果低于第2种安眠药的效果”，需要使用左侧检验，如下所示：

t.test(extra ~ group, data = sleep, pair=T, alternative="less")

原假设：两种安眠药的效果没有显著差异，或者第1种安眠药的效果不小于第2种。

备择假设：第1种安眠药的效果低于第2种安眠药的效果。

从下面结果可知，第1种安眠药效果确实显著低于第2种安眠药效果（p=0.0014）

六、方差齐性检验

方差齐性检验（Equality of Variance Test）是指检验两个或两个以上样本的方差是否相等的统计检验方法。如果两个样本的方差相等，说明它们的变异情况相似，可以认为它们来自同一总体或具有可比性；反之，如果方差不相等，则可能说明它们的变异情况不相似，来自不同的总体或不具有可比性。

在t检验中，方差齐性是一个重要的前提假设，因为如果两个样本的方差差异显著，那么t检验的结果可能会受到严重影响，导致结论不准确。

在t检验中，进行方差齐性检验的目的是确保两个样本具有可比性。因为t检验是用于比较两个样本均值是否存在显著差异的统计方法，如果两个样本的方差差异显著，那么它们的均值比较可能就没有意义。因此，在进行t检验之前，通常需要先进行方差齐性检验。

常用检验方法是Bartlett检验和Levene检验。

1、Bartlett检验

Bartlett检验对数据有一些假设，例如数据应该是来自正态分布的样本。

head(InsectSprays)
library(dplyr)
# 筛选杀虫剂C和D
data1 <- dplyr::filter(InsectSprays, spray %in% c("C", "D"))
# 对使用两种杀虫剂后的昆虫数目进行方差齐性检验
bartlett.test(count ~ spray, data1)

如上结果所示：p值（0.4445）大于显著性水平（如0.05），则接受方差相等的零假设，认为各组的方差无显著差异。

# 三个组，每组有若干观测值
set.seed(1234)  # 设置随机种子以便结果可重复
group1 <- rnorm(30, mean = 5, sd = 2)
group2 <- rnorm(30, mean = 5, sd = 3)
group3 <- rnorm(30, mean = 5, sd = 4)

# 将数据组合成一个向量，并创建一个因子变量表示组别
data <- c(group1, group2, group3)
groups <- factor(rep(c("Group1", "Group2", "Group3"), each = 30))

# 执行Bartlett检验
bartlett_test_result <- bartlett.test(data ~ groups)
bartlett_test_result

如上结果所示：p值（0.0003752）小于显著性水平（如0.05），则拒绝方差相等的零假设，认为各组的方差有显著差异。

2、Levene检验

在R语言中，Levene检验是一种常用的方差齐性（homogeneity of variances）检验方法，尤其适用于数据不满足正态分布假设的情况。与Bartlett检验不同，Levene检验对数据的分布没有严格要求，因此在实际应用中更为广泛。

car包是包含Levene检验函数的一个常用包。

head(InsectSprays)
library(dplyr)
library(car)
# 筛选杀虫剂C和D
data1 <- dplyr::filter(InsectSprays, spray %in% c("C", "D"))
# 对使用两种杀虫剂后的昆虫数目进行方差齐性检验
leveneTest(count ~ spray, data1)

如上结果所示：p值（1）大于显著性水平（如0.05），则接受方差相等的零假设，认为各组的方差无差异。

# 三个组，每组有若干观测值
set.seed(123)  # 设置随机种子以便结果可重复
group1 <- rnorm(30, mean = 5, sd = 2)
group2 <- rnorm(30, mean = 5, sd = 3)
group3 <- rnorm(30, mean = 5, sd = 4)

# 将数据组合成一个数据框
data <- data.frame(
  values = c(group1, group2, group3),
  group = factor(rep(c("Group1", "Group2", "Group3"), each = 30))
)

# 执行Levene检验
levene_test_result <- leveneTest(values ~ group, data = data)

# 得到结果
levene_test_result