卡方检验判断预测变量与目标变量的相关性(使用R语言)
在数据分析中,我们经常需要确定预测变量和目标变量之间的相关性。卡方检验是一种常用的统计方法,用于确定两个分类变量之间是否存在显著的相关性。本文将介绍如何使用R语言进行卡方检验,并提供相应的源代码示例。
卡方检验的原假设是预测变量和目标变量之间没有关联,备择假设是它们之间存在关联。在R语言中,我们可以使用chisq.test()函数进行卡方检验。下面是一个示例数据集,其中包含预测变量(性别)和目标变量(是否购买产品)的观测值。
# 创建示例数据集
gender <- c("男", "男", "女", "女", "男", "女")
purchase <- c("是", "否", "是", "是", "否", "否")
# 将数据集转换为列联表
table <- table(gender, purchase)
print(table)
# 进行卡方检验
result <- chisq.test(table)
print(result)
在上面的代码中,我们首先创建了两个向量gender
和purchase
,分别表示性别和购买情况。然后,我们使用table()函数将数据集转换为列联表,该表显示了各个组合的观测频数。最后,我们使用chisq.test()函数对列联表进行卡方检验,并将结果存储在result
变量中。
运行上述代码,我们将得到以下输出:
purchase
gender 否 是
女 2 1