关于卡方检验

本文介绍了卡方检验作为非参数检验的重要性和使用场景,包括比例分布检验、二项式检验、K-S检验、游程检验等。卡方检验适用于总体分布未知的情况,常用于检验类别比例是否一致、二分类变量的概率分布以及样本是否服从特定分布等。通过举例和步骤说明,阐述了卡方检验在实际问题中的应用和结果解读。

假设检验的结论:p<0.05,则研究假设成立;反之,p>0.05,则研究假设不成立。

属于非参数检验

是在总体分布未知或知之甚少的情况下,利用样本数据对总体分布形态等进行推断的方法。由于非参数检验方法在推断过程中不涉及有关总体分布的参数 ,因而得名为“非参数”检验。

卡方检验重要性:

适用于不知道总体参数的检验,是最常用的一种非参数检验。

当不适用参数检验法时,第一个想到的就是卡方检验。

常见的单样本非参检验方法

卡方检验:检验所有类别是否包含相同频率或者用户指定比例一致

1)比例分布检验

检验一个变量中取值的比例分布是否均匀,或者是否符合设定比例分布

应用场景:

例:确定一袋糖豆是否包含相等比例的蓝色、棕色、绿色、橙色、红色和黄色糖果。也可以检验一袋糖豆是否包含 5% 蓝色、30% 棕色、10% 绿色、20% 橙色、15% 红色和 15% 黄色的糖果。

操作:分析-非参数检验-旧对话框-卡方

原假设:变量的取值分布于均匀分布(或研究者设定的分布)没有显著差异

研究假设: 变量的取值分布于均匀分布(或研究者设定的分布)有显著差异

P<0.05,则研究假设成立。

二项式检验:检验二分类变量(0,1)的两个类别的观察频率与指定概率参数的二项式分布下的期望频率是否一致

检验一个变量取二分类两个值的概率是否符合设定的概率。

应用场景:

例:当您掷出一枚硬币,正面朝上的概率为1/2。根据这一假设,将硬币抛掷 40 次,并记录结果 (正面朝上和反面朝上的情况)。从二项式检验中,您可能发现,3/4 的抛掷都是正面朝上,幵 丏观测的显著水平很小 (0.0027)。这些结果表明,正面朝上的概率不可能等亍 1/2;硬币可能是有偏倚的。

操作:分析-非参数检验-旧对话框-二项

分割点:是将一个连续变量,选择一个值分割为大于该值和小于该值。

原假设:变量的第一个取值比例与设定比例没有显著差异

研究假设: 变量的第一个取值比例与设定比例有显著差异

K-S检验

检验样本来自的总体中,一个变量的分布是否服从正态分布、均匀分布、泊松分布、指数分布。

原假设:变量来自总体的分布与正太分布(均匀分布等)没有显著差异,即变量在总体中呈现正太分布(或均匀分布等)。

研究假设:变量来自总体的分布与正太分布(均匀分布等)有显著差异,即变量在总体中不呈现正太分布(或均匀分布等)。

游程检验

检验某一变量的两个值的出现顺序是否随机。游程是相似的观察值的一个序列。游程太多或太少的样本不是随机样本。

检验场景:通常是检验随着时间变化而产生的两个数值,出现顺序是否随机。

原假设:变量两个值出现顺序和水机出现没有差异,即变量两个值出现是随机的。

研究假设:变量两个值出现顺序不是随机的。

独立样本非参检验

Mann-Whitney U(二样本)、Kolmogorov-Smirnov( 二样本)、Kruskal-Wallis 单因素 ANOVA(k 样本)

独立样本:两组不同不重叠的样本,比如男性和女性。

在收入、年龄等等分布上是否有差异,即检验不同人群在特定变量取值上是否有差异。

注意:分组变量是分类变量、比较变量是连续变量

原假设:两组来自总体的变量数据在分布上没有差异,即两组数据在该变量的取值上没有显著差异。

研究假设:两组来自总体的变量数据在分布上没有差异,即两组数据在该变量的取值上有显著差异。

操作:分析-非参数检验-旧对话框-2个独立样本

配对样本非参检验

 McNemar 检验(二样本)、Cochran 的 Q 检验

配对样本:同一组人群在不同时间采集的两组或多组数据;或者同一组人群不同身体部位采集的两组或多组数据。

检验同一组人群在不同时间、不同部位采集的数据是否有差异,。

注意:t1、t2比较的变量必须是连续变量

原假设:来自总体的同一组人群的两组数据在分布上没有差异,即两组数据在该变量的取值上没有显著差异。

研究假设:来自总体的同一组人群的两组数据在分布上没有差异,即两组数据在该变量的取值上有显著差异。

操作:分析-非参数检验-旧对话框-2个相关样本

交叉分析(列联表分析)

主要用在两个分类变量之间的相关性检验

如果场景中需要对连续变量进行卡方检验,首先需要将连续变量转换为分类变量,

如:年龄分成70后、80后、90后、00后。。。

连续变量转成分类变量的操作:转换-重新编码为不同变量,收入分为:0-50、51-400、401+

如果两个变量都是定类变量,相关系数可通过卡方检验中“名义”里的四个相关系数;如果两个都是定序变量,则选择“有序”里的四个相关系数

问:如果两个变量中,一个为定类变量,一个为定序变量,相关系数应该选哪个?

答:应该用“名义”中的四个相关系数。原因时定序变量可降级为定类变量,而定类变量不可升为定序变量。

卡方检验结果解读:

第一步:看卡方统计结果,根据P值判断两个变量是否存在相关性,如P<0.05,

则说明两者存在显著相关性。

第二部:看相关系数,判断两者之间相关性到底有多大。0-0.2,较弱相关;0.2-0.4,弱相关;0.4-0.6,相关性一般;0.6-0.8,较强相关;0.8-1,极强相关。

第三步:看频次分布,具体分析两者存在什么样的相关。

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值