多元线性回归:原理、应用与模型评估
在数据分析和统计学领域,多元线性回归是一种强大的工具,它可以帮助我们理解多个自变量与一个因变量之间的关系。本文将深入探讨多元线性回归的不同情形,包括连续变量与二元变量的交互作用、两个连续自变量、分类自变量等,同时介绍其在医学文献中的应用,以及模型背后的假设和敏感性分析。
1. 连续变量与二元变量的交互作用
在模型中引入交互项是一种常见的做法。有些软件需要创建一个新变量来表示交互项,例如 AsthmaHt = Asthma × Height
,而其他软件可以通过拟合 “Asthma*Height” 这样的项自动完成。我们将三个自变量(身高、哮喘状态和身高与哮喘的交互项)拟合到死腔数据上,得到模型 2.4。
从计算机程序的输出结果来看,F(3,11) = 37.08,$R^2$ = 0.91,调整后的 $R^2$ 为 0.89,这比模型 2.3 有所改进。残差标准误为 8.003,也表明比之前的模型有提升。
输出结果的第二部分显示,身高和哮喘状态之间的交互项是显著的(P = 0.009),斜率差异为 -0.778 单位(95% CI -1.317 至 -0.240)。需要注意的是,即使哮喘或身高这两个主效应项中有一个不显著,但如果交互项显著,我们也不应从模型中剔除主效应项,因为没有主效应项就无法解释交互项的意义。
最佳拟合线如下:
- 无哮喘儿童: Deadspace = -99.46 + 1.193 × Height
- 有哮喘儿童: Deadspace = -3.99 + 0.415 × Height