卡方检验:拟合优度与独立性分析
1. 卡方拟合优度检验简介
卡方检验(用符号 $c^2$ 表示)是一种非常流行的非参数统计检验方法,适用于数据以频率计数、百分比或可转换为频率的比例形式呈现的情况。它适用于名义数据或有序数据,可用于比较不同类别中出现的频率。
卡方问题主要有两种类型:
- 拟合优度检验
- 独立性检验
1.1 拟合优度检验的用途
当我们想确定观察到的计数、百分比或比例是否与某些预期(理论)值相匹配时,就会使用拟合优度检验。例如,掷一个公平的骰子 900 次,从概率角度来看,我们期望每个面(1 - 6)出现的次数为 150 次(因为 900 / 6 = 150)。但问题是,在判定骰子不公平之前,我们能接受的实际频率与预期频率的偏差范围是多少呢?卡方检验可以为我们提供客观的证据来回答这个问题。
1.2 其他应用场景
并非所有拟合优度检验都关注各类别频率或比例的相等性。例如,我们可能想确定数据的分布是否近似于正态曲线,这时可以使用卡方检验来判断数据与正态曲线的偏差是否超出了随机预期的范围。再比如,从某个城市的猫群中随机抽样,我们可能不会期望每种猫的品种出现的频率相同。卡方拟合优度检验允许我们设定理论频率,然后查看观察到的频率类别是否与理论频率不同。
1.3 卡方值的计算与解读
计算卡方值($c^2$)的数学方法是:用观察值减去预期值,将结果平方,再除以预期值,最后将所有情况相加。显然,预期值与观察值越接近,卡方值就越小。较大的卡方值意味着观察值与预期值之间的差异较大,这可能会导致拒绝原假设。原假设通常表示观察值和预期值之间没有差异。
1.4 SPSS 分析方法
为了清晰展示不同的 SPSS 分析方法,我们将提供两个拟合优度检验的示例:
-
非参数检验 / 旧对话框方法
:当你已经统计出每个类别中的观察值数量时使用。
-
非参数检验 / 单样本方法
:当你有大量名义或有序变量的案例,并且希望 SPSS 程序自动审查数据文件并统计每个类别中的观察数量时使用。
2. 研究场景与示例:旧对话框方法
2.1 研究场景
我们的研究助理希尔达喜欢 Tootsie Roll 公司生产的 DOTS 糖果,她想确定五种口味(橙子、草莓、樱桃、酸橙和柠檬)在多个盒子中的分布是否均匀。由于我们处理的是名义数据和每种口味糖果出现的频率,卡方拟合优度检验似乎是解决这个问题的合适方法。
2.2 研究假设
- 原假设($H_0$) :每种口味糖果的频率没有差异(即每种口味的糖果数量相等)。
- 备择假设($H_A$) :每种口味糖果的频率存在差异(即每种口味的糖果数量不相等)。
2.3 数据输入与分析步骤
我们从该地区的不同商店购买了 13 盒 DOTS 糖果,并统计了每种口味的数量,结果如下表所示:
| 口味 | 数量 |
| — | — |
| 橙子 | 131 |
| 草莓 | 117 |
| 樱桃 | 263 |
| 酸橙 | 147 |
| 柠檬 | 123 |
由于糖果总数为 781 颗,假设五种口味均匀分布,那么每种口味的预期数量为 781 / 5 = 156.2 颗。
以下是使用 SPSS 进行卡方检验的具体步骤:
1. 启动 SPSS,点击“文件”,选择“新建”,然后点击“数据”。
2. 点击“变量视图”标签,将第一个变量命名为“Flavor”,设置变量类型为“数值”,小数位数为 0,对齐方式为“居中”,测量尺度为“名义”。点击“值”下方的单元格,在“值标签”窗口中输入:1 = 橙子,2 = 草莓,3 = 樱桃,4 = 酸橙,5 = 柠檬,然后点击“确定”。
3. 将第二个变量命名为“Frequencies”,设置变量类型为“数值”,小数位数为 0,对齐方式为“居中”,测量尺度为“名义”。
4. 点击“数据视图”标签,按照上述表格输入数据。
5. 点击“文件”,点击“另存为”,在“文件名”框中输入“Flavor”,然后点击“保存”。
6. 点击主菜单中的“数据”,然后点击“加权个案”(“加权个案”窗口将打开)。
7. 点击“加权个案”,然后点击左侧面板中的“Frequencies”,点击向右箭头将其移动到“频率变量”框中。(注意:点击“加权个案”后,稍后尝试关闭数据库时,SPSS 会询问是否保存更改,如果是,请点击“是”。)
8. 点击“确定”。
9. 点击“分析”,选择“非参数检验”,选择“旧对话框”,然后点击“卡方”(一个名为“卡方检验”的窗口将打开)。
10. 点击左侧面板中的“Flavor”,点击向右箭头将其放置在“检验变量列表”框中。
11. 点击“所有类别相等”。
12. 点击“确定”。
2.4 结果解读
SPSS 输出的结果显示,卡方值为 94.53,显著性水平为 0.000(实际上小于 0.0005,SPSS 四舍五入为 0.000)。由于 0.000 小于 0.05 的显著性水平,我们拒绝原假设。这意味着我们有证据支持希尔达的理论,即五种口味的糖果在盒子中的分布并不均匀。
3. 研究场景与示例:单样本方法
3.1 研究场景
我们将使用 SPSS 样本数据库“workprog.sav”,对其中的分类变量“marital”(婚姻状况)进行卡方检验。该变量将 1000 个案例分为两类:0 = 未婚,1 = 已婚。研究者想了解样本中未婚和已婚的类别是否相等,因此选择了卡方拟合优度检验。
3.2 研究假设
- 原假设($H_0$) :样本中未婚和已婚个体的数量没有显著差异(即类别相等)。
- 备择假设($H_A$) :样本中未婚和已婚个体的数量存在显著差异(即类别不相等)。
3.3 数据输入与分析步骤
以下是使用 SPSS 进行卡方检验的具体步骤:
1. 启动 SPSS,点击“文件”,选择“打开”,然后点击“数据”。
2. 在“打开数据”窗口中,找到 SPSS 样本文件中的“workprog.sav”,点击它,然后点击“打开”(如果在查找和打开“workprog.sav”文件时需要帮助,请参考相关说明)。
3. 点击“分析”,选择“非参数检验”,然后点击“单样本”(“单样本非参数检验”窗口将打开)。
4. 点击“目标”标签,然后点击“自定义分析”。
5. 点击“字段”标签,使用箭头确保“婚姻状况”是“检验字段”面板中唯一的变量。
6. 点击“设置”标签,点击“自定义检验”,并勾选“将观察概率与假设概率进行比较(卡方检验)”旁边的框。
7. 点击“选项”(在“单样本非参数检验”窗口中)。
8. 在“卡方检验选项”窗口中,在“选择检验选项”面板中,点击“所有类别具有相等概率”,然后点击“确定”。
9. 点击“运行”(输出查看器将打开,显示“假设检验摘要”)。
3.4 结果解读
SPSS 输出的“假设检验摘要”显示,原假设为婚姻状况的类别以相等的概率出现,显著性水平为 0.230。由于 0.230 大于 0.05 的显著性水平,我们保留原假设。这意味着研究者有客观证据表明未婚和已婚群体在样本中的数量是相等的,可以放心地进行进一步的测试。
4. 总结
通过本章的学习,我们了解了如何应用卡方拟合优度检验来确定单个变量的观察出现频率是否与预期频率一致。我们使用了 SPSS 提供的两种数据处理方法:非参数 / 旧对话框方法和非参数 / 单样本方法。
4.1 卡方拟合优度检验的重要性
卡方拟合优度检验在许多领域都有广泛的应用,它可以帮助我们验证数据是否符合某种理论分布,或者不同类别之间的频率是否存在显著差异。通过合理设置原假设和备择假设,并正确使用卡方检验,我们可以从数据中获取有价值的信息,为决策提供依据。
4.2 未来展望
在后续的研究中,我们可以进一步探索卡方检验在不同场景下的应用,例如结合其他统计方法进行更深入的数据分析。同时,我们也可以尝试将卡方检验应用到实际问题中,如市场调研、医学研究等,以提高我们对数据的理解和分析能力。
4.3 复习练习
为了巩固所学知识,我们提供了以下复习练习:
1. 一位医学生物学家正在研究三种已知在健康人体消化系统样本中均匀存在的细菌,分别标记为 A、B 和 C。科学家观察到的细菌转化数量为 A = 3256,B = 2996,C = 3179。问题是这些值与预期值的差异是否具有统计学意义。请写出原假设和备择假设,输入数据,进行分析,并解释结果。
2. 打开 SPSS 样本文件“telco.sav”,使用第一个变量“region”(地理指标)。该变量代表 1000 个案例所在的五个不同区域。研究者认为这些案例在五个区域中的分布不均匀。请写出原假设和备择假设,然后研究“region”变量,以寻找支持研究者假设的证据。
3. 一位高中校长担心几位老师授予“A”等级的比例差异很大,她收集了相关数据,想确定是否存在统计学上的显著差异。数据如下:托马斯(6 个“A”)、玛丽安(10 个“A”)、玛尔塔(12 个“A”)、贝尔塔(8 个“A”)和亚历克斯(10 个“A”)。请写出原假设和备择假设,选择合适的统计检验方法,进行分析,并解释结果。
通过完成这些练习,我们可以更好地掌握卡方拟合优度检验的应用,提高我们的数据分析能力。
5. 卡方独立性检验简介
5.1 检验目的
卡方独立性检验是一种非参数检验,用于确定两个分类变量之间是否独立或相关。原假设通常表示两个变量是独立的(即不相关)。该检验适用于以频率表示的数据,分析时将离散数据(观察值)放入列联表中,并计算预期值,然后将观察值与预期值进行比较。
5.2 列联表的概念
列联表是一种将一组对象按照两个分类标准进行分类的表格,其中一个标准作为行,另一个标准作为列。列联表可以有多于两行和两列。例如,列变量“教育程度”可以分为三个类别:(1)未高中毕业,(2)高中毕业,(3)大专学位;行变量“性别”可以分为男性和女性两个类别。在这种情况下,我们可以使用卡方独立性检验来寻找性别和教育程度之间关系的证据。
5.3 示例分析方法
为了展示卡方独立性检验的应用,我们将提供两个示例:
- 第一个示例使用已经汇总的数据,输入方式与之前的拟合优度检验示例类似。
- 第二个示例将使用 SPSS 样本文件中的数据库。
6. 研究场景与示例:汇总数据
6.1 研究场景
一位研究者听说在某些人群中,色盲与性别有关,他希望确定对于他所收集数据的这组人群是否也是如此。由于样本数据是名义水平的,并且只涉及频率,因此研究者认为卡方独立性检验是合适的方法。
6.2 研究假设
- 原假设($H_0$) :色盲与性别无关(即色盲和性别不相关)。
- 备择假设($H_A$) :色盲与性别有关(即色盲和性别相关)。
6.3 数据输入与分析步骤
研究者汇总的数据代表了 1000 个人,其中 480 名男性和 520 名女性。以下是使用 SPSS 进行分析的具体步骤:
1. 按照给定的变量信息,在 SPSS 的“变量视图”中输入所有变量信息。
2. 在“数据视图”中输入数据,如下表所示:
| 性别 | 眼睛状况 | 数量 |
| — | — | — |
| 男性 | 正常 | [具体数量 1] |
| 男性 | 色盲 | [具体数量 2] |
| 女性 | 正常 | [具体数量 3] |
| 女性 | 色盲 | [具体数量 4] |
-
在进行分析之前,需要对案例进行加权:
- 点击主菜单中的“数据”,然后点击“加权个案”(“加权个案”窗口将打开)。
- 点击“加权个案”,点击“数量”,然后点击箭头将其移动到“频率变量”框中。
- 点击“确定”。
-
保存文件:
- 点击“文件”,点击“另存为”,在“文件名”框中输入“color blind”。
- 点击“保存”。
-
进行卡方独立性检验:
- 点击“分析”,选择“描述统计”,然后点击“交叉表”。
- 点击“性别”,然后点击箭头将其放入“行”框中。
- 点击“眼睛状况”,然后点击箭头将其放入“列”框中。
- 点击“统计量”按钮(“交叉表:统计量”窗口将打开)。
- 在该窗口中,点击“卡方”,然后点击“继续”。
- 点击“单元格”(“交叉表:单元格显示”窗口将打开)。
- 在该窗口中,点击“观察值”和“期望值”(在“计数”面板中),然后点击“继续”。
- 点击“确定”(输出查看器将打开,显示相关表格)。
6.4 结果解读
SPSS 输出的第一个表格是“案例处理摘要”,第二个表格是“性别 * 眼睛状况 交叉表”,这就是我们前面提到的列联表。第三个表格是“卡方检验”,我们关注“Pearson 卡方”行和“渐近显著性(双侧)”列。该列中的值为 0.000,这意味着我们拒绝原假设。因此,我们有统计证据支持研究者的观点,即在他的样本中,性别和色盲之间存在关系。不过,根据他的抽样技术,他可能无法将这个假设推广到更大的人群。
7. 研究场景与示例:原始数据
7.1 研究场景
本示例将使用 SPSS 样本文件“customer_dbase.sav”中的原始数据进行卡方独立性检验。该数据库包含 5000 个客户的 134 个变量,我们将探索客户的性别和工作满意度之间的关系。选择的两个变量是:(1)“gender”(性别),其中 0 = 男性,1 = 女性;(2)“jobsat”(工作满意度),其中 1 = 非常不满意,2 = 有些不满意,3 = 中立,4 = 有些满意,5 = 非常满意。
7.2 研究假设
- 原假设($H_0$) :对工作满意度问题的回答与性别无关(即男性和女性客户的工作满意度回答相同)。
- 备择假设($H_A$) :对工作满意度问题的回答与性别有关(即男性和女性客户的工作满意度回答不同)。
7.3 数据输入与分析步骤
以下是使用 SPSS 进行分析的具体步骤:
1. 打开数据库:
- 启动 SPSS,点击“文件”,选择“打开”,然后点击“数据”。
- 在“打开数据”窗口中,找到“customer_dbase.sav”文件,点击它,然后点击“打开”。
2. 进行卡方独立性检验:
- 点击“分析”,选择“描述统计”,然后点击“交叉表”(“交叉表”窗口将打开)。
- 点击“性别”,然后点击箭头将其放入“行”框中。
- 滚动并点击“工作满意度”,然后点击箭头将其放入“列”框中。
- 点击“统计量”(“交叉表:统计量”窗口将打开),然后点击“卡方”。
- 点击“继续”(返回“交叉表”窗口)。
- 点击“单元格”(“交叉表:单元格显示”窗口将打开),在“计数”面板中确保“观察值”和“期望值”都被选中,在“百分比”面板中点击“行”、“列”和“总计”。
- 点击“继续”,然后点击“确定”,这将启动分析并打开输出查看器。
7.4 结果解读
首先,我们查看列联表(交叉表)来回答关于男性和女性在每个工作满意度类别中的百分比问题。以“非常不满意”和“男性”的第一个单元格为例:
- “计数”行报告了表示对工作非常不满意的男性客户的实际频率(475)。
- “预期计数”行显示了卡方分析计算的值(473.6)。
- “性别内百分比”行告诉我们,19.4%的男性表示对工作非常不满意。
- “工作满意度内百分比”行显示,在所有表示对工作非常不满意的客户中,49.1%是男性。
- “总计百分比”行表示,9.5%的所有客户可以被归类为男性且对工作非常不满意。
然后,我们查看“卡方检验”表格,关注“Pearson 卡方”行和“渐近显著性(双侧)”列。该列中的值为 0.319(> 0.05),这意味着我们必须保留原假设。我们的分析提供了统计证据,表明在工作满意度问题上,男性和女性之间没有统计学上的显著差异。
8. 总结
8.1 学习收获
在本章中,我们学习了如何使用 SPSS 分析卡方列联表中的数据,如何解释输出结果,以及如何根据结果决定是否拒绝或保留原假设。
8.2 知识体系完善
通过对卡方拟合优度检验和卡方独立性检验的学习,我们对描述性和推断性统计有了更深入的理解,同时也掌握了数据处理和分析的方法,以及如何根据数据类型选择合适的统计检验方法。这将有助于我们在未来的研究中更好地分析数据,做出更准确的决策。
8.3 复习练习
为了巩固所学知识,我们提供以下复习练习:
1. 一位社区活动家认为警察特警队成员与军事经验之间存在关系。他从几个警察部门收集了数据,发现特警队中有 57 名成员有军事经验,13 名成员没有军事经验;有 358 名警察有军事经验但不是特警队成员,413 名警察没有军事经验且不是特警队成员。请写出原假设和备择假设,选择正确的统计方法,进行分析,并解释结果。
2. 打开 SPSS 样本文件“bankloan.sav”,确定 5000 名银行客户的性别和家乡规模之间是否存在关系。银行官员认为“家乡规模”与“性别”有关。请写出原假设和备择假设,选择合适的统计方法,进行分析,并解释结果。
3. 一位营养学家正在开发一个健康饮食教育项目,她想证明男性和女性摄入蔬菜的量不同。她进行了一项调查,将人们按性别和蔬菜摄入量(低、中、高)进行分类。男性的数量分别为:低 = 29,中 = 21,高 = 16;女性的数量分别为:低 = 21,中 = 25,高 = 33。请写出原假设和备择假设,选择正确的检验方法,进行分析(包括所有类别的百分比),并解释结果。
通过完成这些练习,我们可以进一步提高对卡方检验的应用能力,更好地理解和分析数据。
超级会员免费看
8203

被折叠的 条评论
为什么被折叠?



