当中介变量是分类变量：突破传统方法的局限与实战指南

原创于 2025-12-05 10:36:36 发布 · 398 阅读

CC 4.0 BY-SA版权

文章标签：

在科学研究中，中介效应分析是探寻“X如何影响Y”这一黑箱机制的利器。我们熟知的Baron和Kenny步骤法、系数乘积检验法，似乎已成为研究者手中的标准流程。然而，当你兴冲冲地将模型套用到自己的数据上时，可能会遇到一个棘手的问题：如果我的中介变量不是连续分数，而是一个“是”或“否”的状态，一个“高、中、低”的等级，或者几种不同的类型，该怎么办？

例如：

X：员工培训项目 | M：工作满意度（满意/不满意） | Y：工作绩效
X：广告投放量 | M：品牌认知（不知名/知名/顶级） | Y：购买意愿
X：家庭教育方式 | M：孩子心理韧性（高/低） | Y：学业成就

此时，你若直接运行PROCESS或画一个路径图，将线性回归的系数生搬硬套，得到的结论很可能是不准确甚至错误的。本文将带你深入浅出地剖析这一问题，并为你提供一套清晰、可操作的现代解决方案。

一、根源探析：为什么传统方法会“失灵”？

传统中介模型的核心操作之一是计算路径系数 a（X → M）和 b（M → Y）的乘积 a*b，并将其定义为中介效应。这个操作的成立，隐含着一个关键前提：变量M是连续的，且其关系是线性的。

“单位变化”的失效：在线性回归中，系数b的意义是“M每增加一个单位，Y平均变化b个单位”。但当M是“满意/不满意”时，什么叫“增加一个单位”？从“不满意”到“满意”是一个质的飞跃，而非量的累积。这个变化无法用“单位”来衡量。
系数尺度的不匹配：当M是分类变量时，我们通常用Logistic回归（二分类）或多项Logistic回归（多分类）来拟合X → M的路径。Logistic回归输出的系数是 Log(Odds)，即“对数几率”。这是一个非线性、非直观的尺度。而路径b（M → Y）的系数，如果Y是连续的，则来自线性回归，单位明确。

试问，一个“对数几率”乘以一个“Y的单位变化”，得到的结果究竟是什么？它的现实意义极其模糊，无法合理解释。 这正是传统方法面临的根本性挑战。

二、思维转换：从“系数相乘”到“效应模拟”

既然直接相乘的路走不通，我们需要的是一场思维革命：放弃直接计算a*b的点估计，转而通过模拟抽样的方法，去估计“中介效应”这个整体的抽样分布，并判断它是否显著地不为零。

这就引出了当今方法论领域的明星——Bootstrap法。

Bootstrap（自助法）的核心思想：我们的样本就是从总体中抽取的一个最好的“缩影”。我们把这个样本当作一个“微观总体”，然后有放回地从中重复抽取大量（如5000次）的新样本（称为Bootstrap样本）。由于是有放回抽样，每个新样本都与原样本略有不同，从而模拟了从总体中多次抽样的过程。

具体到中介分析：

我们从原始数据中，有放回地抽取一个Bootstrap样本。
在这个样本上，分别用Logistic回归拟合X→M的模型，用线性回归（或Logistic回归，如果Y也是分类的话）拟合M→Y的模型。
记录下这两个模型的系数。
将上述步骤重复5000次，我们就得到了5000套略有差异的模型系数组合。
基于这5000套系数，我们可以计算出5000个可能的“中介效应”值。这5000个值就构成了中介效应的一个经验分布。
我们找出这个分布的2.5%分位数和97.5%分位数，就得到了一个95%的置信区间。

如何判断？如果这个置信区间不包含0，我们就认为中介效应是存在的。因为它意味着，在95%的模拟情境下，由X通过M影响Y的间接效应都不为零。

这个方法完美地绕开了“系数尺度不匹配”的难题，因为它关注的是整体效应的分布，而非单个系数的乘积。

三、实战指南：两种情况与操作流程

在实操中，根据因变量Y的类型，主要分为两种情况。理解这两种情况，是正确建模的关键。

情况一：中介变量M为分类变量，因变量Y为连续变量

这是最常见的情形。例如，研究新教学方法（X）如何通过提升学生学习兴趣（M，高/低）来最终提高考试成绩（Y）。

模型构建逻辑：

路径a (X → M)：使用 二元Logistic回归（当M为二分类时）。
路径b (M → Y)：使用 线性回归。
总效应 (X → Y)：使用 线性回归。

操作与解读（以SPSSAU为例）：

对于研究者而言，手动进行5000次Bootstrap抽样并分别建模，是一项繁重且易错的工作。幸运的是，现代统计工具已经将这些流程自动化。

找到分析模块：在SPSSAU的“问卷研究”->“中介效应”或“路径分析”模块中，通常都支持Bootstrap和分类变量的设置。
变量设置：将自变量X选入对应框，将中介变量M指定为“分类变量”（SPSSAU界面中通常有变量类型的选项，勾选M为定类数据即可），将因变量Y选入对应框。
选择模型并开启Bootstrap：选择合适的中介模型（如模型4），并务必勾选“Bootstrap”选项，将抽样次数设置为5000次。这是关键一步。
运行并解读结果：SPSSAU会自动完成所有复杂的计算过程，并输出一份清晰的结果报告。你需要重点关注以下部分：
- 间接效应的Bootstrap置信区间：在结果表中，会有一条专门显示“X -> M -> Y”的间接效应值，并附有其95% Bootstrap置信区间的下限和上限。如果区间不包含0，则中介效应显著。
- 效应量：报告中可能还会给出中介效应在总效应中的占比（Prop. Mediated），帮助你判断中介路径的重要性。

情况二：中介变量M与因变量Y均为分类变量

这种情况更为复杂，两条路径都是非线性的。例如，研究社会支持（X）如何通过改善抑郁状态（M，是/否）来降低辍学风险（Y，是/否）。

模型构建逻辑：

路径a (X → M)：使用 二元Logistic回归。
路径b (M → Y)：使用 二元Logistic回归。
总效应 (X → Y)：使用 二元Logistic回归。

此时，两条路径的系数都是Logit系数，尺度问题加倍严重。Bootstrap方法依然是唯一稳健的选择。

操作与解读：
在SPSSAU中的操作流程与情况一类似，关键在于正确设定M和Y的数据类型。当你将M和Y都设定为“分类变量”后，软件底层会自动调用相应的Logistic回归模型进行计算。

在结果解读上，由于系数都是Logit形式，直接解释a*b的值非常困难。我们更应该关注：

间接效应的显著性：同样看Bootstrap置信区间是否包含0。
效应量的OR解释：我们可以从“发生比”的角度来理解。路径a的系数可以转换为X对M的Odds Ratio，路径b的系数可以转换为M对Y的Odds Ratio。整个中介过程，可以理解为X通过改变M的发生比，进而影响了Y的发生比。虽然总的中介效应没有一个像连续变量那样的标准单位，但其显著性意义和方向性是明确的。

四、常见误区与进阶提醒

误用线性回归处理分类M：这是最致命的错误。用线性回归拟合分类变量M，会违反模型的许多基本假设，导致结果完全失真。
忽视Bootstrap，强行解释系数乘积：即使某些软件输出了a*b的值和基于正态分布的Sobel检验p值，在M为分类变量时，这个结果也是不可靠的。务必以Bootstrap置信区间为准。
样本量要求：Bootstrap方法对样本量有一定要求，通常建议样本量不宜过小（如少于200），否则抽样稳定性会受影响。
控制混杂变量：别忘了在模型中放入需要控制的协变量（如性别、年龄等），无论是在X->M，还是M->Y的模型中，都应放入相同的协变量，以确保结果的纯净。

五、总结

当中介变量是分类变量时，我们分析的核心不再是简单的系数相乘，而是对整个间接效应的分布进行推断。Bootstrap方法以其强大的灵活性和稳健性，成为了解决这一问题的金标准。

对于广大研究者，尤其是那些不擅长编程的学者，像SPSSAU这样的智能化在线统计分析平台，极大地降低了应用这一先进方法的门槛。它通过友好的图形界面，将复杂的Bootstrap抽样、模型适配、置信区间计算过程全部封装起来，用户只需正确地设定变量类型，即可一键得到可靠、专业的结果报告，从而让我们能更专注于研究问题本身和结果的解读，而非纠结于繁琐的计算细节。