医学研究中的特定回归模型解析
1. 二分类结果的概率单位回归
在受社会科学影响的医学研究领域,概率单位回归是处理二分类结果数据的常用方法。其核心思想是协变量值的线性组合 $\beta_0 + \beta_1x_1 + \beta_2x_2 + … + \beta_px_p$ 与一个潜在变量 $L$ 进行比较。若 $\beta_0 + \beta_1x_1 + \beta_2x_2 + … + \beta_px_p$ 大于 $L$,则 $Y$ 为 1,否则为 0。$L$ 的含义会因应用场景而异,比如在研究疾病风险因素时,$L$ 可解释为个体对风险因素的易感性。
假设 $L$ 服从标准正态分布,具有协变量模式 $x_1,x_2, …, x_p$ 的受试者 $Y = 1$ 的概率为:
$P(Y = 1|x_1,x_2, …, x_p) = P(L < \beta_0 +\beta_1x_1 +\beta_2x_2 + … +\beta_px_p) = \Phi(\beta_0 +\beta_1x_1 +\beta_2x_2 + … +\beta_px_p)$
其中 $\Phi$ 表示标准正态分布的分布函数,因此有:
$\Phi^{-1}(P(Y = 1|x_1,x_2, …, x_p)) = \beta_0 +\beta_1x_1 +\beta_2x_2 + … +\beta_px_p$
概率单位模型与逻辑回归模型非常相似,只是逻辑函数被所谓的概率单位函数 $probit(p) = \Phi^{-1}(p)$ 所取代。概率单位回归的效应估计往往小于逻辑回归的效应估计,但在效应估计的数量级顺序方面,两者结果非常相似。
值得注意的是,逻辑回归也可以由潜在变量模型推导得出,只需将 $L$ 的分布假设从正态分布改为逻辑分布。此外,如果假设由 $Y = 0$ 和 $Y = 1$ 定义的两组协变量值遵循具有不同均值但相同方差/协方差结构的多元正态分布,那么 $Y$ 给定 $X_1,X_2, …, X_p$ 的分布将遵循逻辑回归模型。
1.1 概率单位回归与逻辑回归对比
| 模型 | 链接函数 | 方差函数 | 效应估计特点 |
|---|---|---|---|
| 概率单位回归 | 概率单位函数 $probit(p) = \Phi^{-1}(p)$ | - | 效应估计往往较小 |
| 逻辑回归 | 逻辑函数 | $v(\mu) = \mu(1 - \mu)$ | - |
1.2 概率单位回归流程
graph LR
A[确定协变量和潜在变量] --> B[计算协变量线性组合]
B --> C[与潜在变量比较]
C --> D{判断大小}
D -- 大于 --> E[Y = 1]
D -- 小于等于 --> F[Y = 0]
2. 广义线性模型
广义线性模型并非一种新的特定回归模型,而是一类广泛的模型统称,涵盖了许多不同的回归模型。其特征在于通过链接函数 $g$ 建立了结果 $Y$ 的期望值 $\mu(x_1,x_2, …, x_p)$(给定协变量值 $x_1,x_2, …, x_p$)与线性预测器 $\beta_0 +\beta_1x_1 +\beta_2x_2 + … +\beta_px_p$ 之间的关系,即:
$g(\mu(x_1,x_2, …, x_p)) = \beta_0 +\beta_1x_1 +\beta_2x_2 + … +\beta_px_p$
同时,还存在 $Y$ 的期望值 $\mu(x_1,x_2, …, x_p)$(给定协变量 $x_1,x_2, …, x_p$)与 $Y$ 的方差 $V(x_1,x_2, …, x_p)$(给定 $x_1,x_2, …, x_p$)之间的关系:
$V(x_1,x_2, …, x_p) = \varphi v(\mu(x_1,x_2, …, x_p))$
其中 $\varphi$ 表示未知(或已知)的尺度参数,$v(\mu)$ 是一个将均值与方差联系起来的函数。
这些规范足以使用准似然估计技术获得回归参数的有效估计。这些估计的有效性要求(至少在大样本中)仅需正确指定均值结构,而方差结构可以错误指定。使用稳健标准误差,在相同条件下也可以获得有效的置信区间和 p 值。因此,关于方差结构的假设只是一个工作假设:如果假设正确,所得估计是最优的;如果错误,估计仍然有效,但可能效率稍低。方差函数的选择大致决定了分析中每个观测值的权重,使用错误的方差函数意味着观测值的加权不理想。
经典回归模型和逻辑回归模型都是广义线性模型的特殊情况。在经典回归模型中,链接函数是恒等函数,方差函数值为常数 1;在逻辑回归模型中,链接函数是逻辑函数,方差函数为 $v(\mu) = \mu(1 - \mu)$,尺度参数设为 1。概率单位回归也属于这一类,只需将逻辑链接改为概率单位链接。在所有这些特定情况下,准似然原理简化为普通最大似然原理,因此得到的估计与通常的估计相同。
广义线性模型提供的一般框架主要具有理论意义,为一大类模型提供了通用理论。它对计算也有益,因为它意味着一种通用的算法方法,即迭代加权最小二乘法。在实践中,如果我们对特定的非标准方差函数有想法,它也很有用。例如,在图像分析中对百分比的分析,这些百分比通常在 0 到 100 之间,其方差结构类似于相对频率:方差在 50% 左右最高,当百分比接近 0% 或 100% 时接近 0。此时,合理的方差函数是类似于逻辑回归中的 $\mu(1 - \mu)$,但允许有尺度参数。这可以与用于均值结构的逻辑或恒等链接相结合。
2.1 不同回归模型在广义线性模型中的特征
| 模型 | 链接函数 | 方差函数 | 尺度参数 |
|---|---|---|---|
| 经典回归模型 | 恒等函数 | 常数 1 | - |
| 逻辑回归模型 | 逻辑函数 | $v(\mu) = \mu(1 - \mu)$ | 1 |
| 概率单位回归 | 概率单位函数 | - | - |
2.2 广义线性模型分析流程
graph LR
A[确定均值与线性预测器关系] --> B[确定均值与方差关系]
B --> C[使用准似然估计参数]
C --> D[使用稳健标准误差计算置信区间和 p 值]
3. 计数数据的回归模型
在回归分析中,实验研究中物质诱变效应的突变细胞数量、癌症患者化疗期间的呕吐发作次数或女性生育的子女数量等都是典型的计数数据作为结果变量 $Y$ 的例子。在某些情况下,计数结果数据可以像连续结果一样使用经典回归模型处理,但特别是当许多计数为 0 时,这种方法往往不太合适,因为这可能导致对于某些协变量值,$\mu(x_1,x_2, …, x_p)$ 可能为负,即预测的预期计数为负数,这显然不合理。
为确保模型始终预测正计数,可以在对数尺度上对期望值进行建模,即:
$\log\mu(x_1,x_2, …, x_p) = \beta_0 +\beta_1x_1 +\beta_2x_2 + … +\beta_px_p$
其中 $\mu(x_1,x_2, …, x_p)$ 仍然表示具有协变量模式 $x_1,x_2, …, x_p$ 的受试者中 $Y$ 的期望值。由此可得:
$\mu(x_1,x_2, …, x_p) = e^{\beta_0 +\beta_1x_1 +\beta_2x_2 + … +\beta_px_p}$
这样可以确保 $\mu(x_1,x_2, …, x_p)$ 始终为正。回归系数的解释需要在对数尺度上进行。
有两种常用的模型采用这种建模方式,它们仅在对 $Y$ 的分布假设上有所不同。本质区别在于假设的期望值 $\mu(x_1,x_2, …, x_p)$ 与方差 $V(x_1,x_2, …, x_p)$ 之间的关系。在泊松回归中,假设方差等于均值,这是泊松分布的基本性质,当我们对单个受试者中的独立事件进行计数时自然会出现。但“独立”意味着每个单个事件发生的概率仅为 $\mu(x_1,x_2, …, x_p)$ 的函数,不允许有其他受试者特定变量影响单个事件的发生,这种假设在很多情况下不现实。因此,更合理的模型是假设负二项分布的负二项模型。该分布在允许受试者特定的潜在变量 $L$ 因受试者而异的情况下产生,给定 $L = l$,计数遵循对数尺度上期望值为 $\beta_0 + \beta_1x_1 + \beta_2x_2 + … + \beta_px_p + l$ 的泊松分布。负二项分布的本质特征是方差与期望值成比例,即 $V(x_1,x_2, …, x_p) = \varphi\mu(x_1,x_2, …, x_p)$。并且假设方差随均值增加是合理的,因为当预期计数接近 0 时,$Y$ 的变化范围有限。
如今,使用泊松回归或负二项回归分析计数数据非常流行,并且使用稳健标准误差,这样我们既不依赖于特定的分布假设,也不依赖于对方差结构的特定假设,在任何情况下都能获得有效的效应估计、置信区间和 p 值。两种模型的选择只是关于方差结构的工作假设问题。
泊松回归不仅用于计数数据,还用于发病率数据。发病率数据通常来自队列研究,受试者在由分类协变量(如年龄组或工作条件)定义的不同风险组中花费不同的时间。我们对所有受试者的分类协变量值的每个可能组合,统计在每个组中花费的时间以及在这段时间内发生的事件数量,然后可以列出发病率表,即事件数量除以在每个组中花费的总时间(通常称为风险时间)。可以使用泊松回归对每个组中的计数进行回归分析,将风险时间作为额外的协变量,回归系数固定为 1,这反映了预期事件数量与风险时间成比例。实际上,泊松回归也可用于在受试者水平分析发病率数据,跟踪每个受试者直到首次事件发生($Y = 1$)或随访结束($Y = 0$),使用个体风险时间作为偏移量。
3.1 泊松回归与负二项回归对比
| 模型 | 分布假设 | 方差与均值关系 | 适用情况 |
|---|---|---|---|
| 泊松回归 | 泊松分布 | 方差等于均值 | 事件独立发生情况 |
| 负二项回归 | 负二项分布 | 方差与均值成比例 | 考虑受试者特定因素影响 |
3.2 计数数据回归分析流程
graph LR
A[判断数据类型] --> B{是否适合经典回归}
B -- 否 --> C[对数尺度建模]
C --> D{选择模型}
D -- 泊松回归 --> E[进行泊松回归分析]
D -- 负二项回归 --> F[进行负二项回归分析]
E --> G[使用稳健标准误差计算结果]
F --> G
4. 有序结果数据的回归模型
当研究的结果是患者对疾病严重程度或治疗效果的主观评价时,结果通常采用有序尺度进行测量,例如低、中、高或差很多、差、无变化、好、好很多。如果我们对协变量对这些评级的影响感兴趣,就需要回归模型来处理这类结果变量。
4.1 常见处理方法及问题
- 经典回归模型 :一种广泛使用的方法是为不同类别分配数值 1、2、3 等,即使用 k 点尺度(k 表示类别数量),然后使用经典回归模型(使用稳健标准误差以考虑非正态误差分布)。这种方法的效应估计易于解释,例如对于二元协变量,它表示在 k 点尺度上仅在该协变量上不同的两个受试者的预期差异。然而,该方法常受到批评,因为它忽略了结果尺度的有序性,使用不同的非等距数字可能会得到不同的结果。但实际上,只要我们分配的数字反映了类别的顺序,就没有忽略有序性,而且为类别选择特定(通常是等距)的数字是一个高度透明的决策,比任意选择更自然。更严重的问题是,使用经典线性回归时,$\mu(x_1,x_2, …, x_p)$ 可能会超出 k 点尺度的范围。
- 其他模型尝试 :已经有许多尝试定义有序结果数据的回归模型,但没有一种方法在所有情况下都令人信服。
4.2 具体回归模型
| 模型 | 原理 | 优点 | 缺点 |
|---|---|---|---|
| 有序逻辑回归 | 假设存在切点 $c_0,…,c_k$,使得 $P(Y 落在类别 j | x_1,x_2, …, x_p) = P(c_{j - 1} \leq \beta_1x_1 + \beta_2x_2 + … + \beta_px_p + L \leq c_j)$,并从数据中估计切点和回归参数 | - |
| 比例优势模型 | 将有序结果拆分为 $k - 1$ 个二元指标,对每个二元指标拟合逻辑模型,假设所有指标的回归系数相同(除截距外),拟合联合模型得到每个协变量的一个效应估计 | 效应估计可轻松解释为对数尺度上的效应或优势比 | - |
| 顺序拆分法 | 例如,先将结果拆分为低或中与高,然后仅分析未回答高的受试者,将结果拆分为低和中 | 可获得不同的效应估计,提供有趣见解 | 可能因为每个协变量估计两个效应估计而无法获得显著结果 |
4.3 比例优势模型流程
graph LR
A[定义二元指标] --> B[拟合逻辑模型]
B --> C[假设回归系数相同]
C --> D[拟合联合模型]
D --> E[获得效应估计]
5. 分位数回归和稳健回归
在一些具有连续结果的应用中,除了 $Y$ 的期望值外,$Y$ 给定 $x_1,x_2, …, x_p$ 的条件分布的其他特征也可能是我们感兴趣的。例如,在构建实验室参数的特定年龄规范曲线时,我们想知道下限和上限 2.5% 分位数如何随年龄变化。分位数回归正是用于对给定协变量(如年龄)的实验室参数的条件分布的特定分位数进行建模。在 Stata 中,可以使用
qreg
命令拟合此类模型。
5.1 分位数回归特点
分位数回归在 $Y$ 的变化不恒定时特别有用。只有在这种情况下,对均值建模和对分位数建模才可能产生显著差异。例如,在研究针对肥胖的治疗时,随着时间推移,大多数患者的治疗有效,但少数患者效果相反,BMI 的变化会增加。如果对 BMI 的均值进行建模,可能会观察到随时间下降,但对于上 5% 分位数,可能会观察到增加。
5.2 中位数回归
中位数回归是分位数回归的一个特殊情况,即对中位数而不是均值进行建模。乍一看,它与经典回归模型似乎没有太大区别,因为如果误差项的分布是对称的,均值和中位数没有差异。然而,中位数回归通常通过最小化残差的绝对值之和而不是残差的平方和来实现,这使得结果对异常值不那么敏感。例如,在某些数据集中,经典回归模型可能会因单个异常值而显示出急剧增加,而中位数回归能够捕捉到大多数观测值中呈现的下降趋势。
5.3 稳健回归的应用场景
稳健回归方法的“稳健”意味着结果不会被一个或几个异常值主导。尽管这是一个明显的优势,但这些方法在医学研究中并不流行。一个原因可能是,人们更倾向于通过仔细检查数据来识别异常值,然后在找到合理的解释(如明显的测量误差)后手动去除它们。然而,在某些情况下,需要对不同数据集拟合多个回归模型,此时系统的可视化检查变得非常繁琐。例如,在处理许多遗传标记时,我们希望找到与年龄或其他连续患者特征相关性最好的标记。当对每个标记(例如 10,000 个标记)的标记值与年龄进行回归时,我们需要确保最终不会只关注那些测量中有异常值的标记。因此,我们需要一种稳健的方法来进行自动化分析。
5.4 分位数回归与经典回归对比
| 模型 | 关注特征 | 对异常值敏感度 | 适用场景 |
|---|---|---|---|
| 分位数回归 | 条件分布的特定分位数 | 低(中位数回归) | $Y$ 变化不恒定,关注特定分位数 |
| 经典回归 | 期望值 | 高 | 数据符合正态分布,关注均值 |
5.5 分位数回归流程
graph LR
A[确定关注的分位数] --> B[使用 qreg 命令拟合模型]
B --> C[分析结果]
6. 方差分析与回归
在一些出版物中,我们会发现方差分析(ANOVA)方法被用于原本可能使用回归的情况,这并不奇怪,因为 ANOVA 与特定的回归模型相同。但由于 ANOVA 历史悠久,特别是在实验研究方面,有一些特定的传统我们需要了解。
6.1 不同类型 ANOVA 与回归的关系
| ANOVA 类型 | 对应回归模型 | 检验内容 |
|---|---|---|
| 单向 ANOVA | 具有一个分类协变量的经典回归 | 检验所有类别之间无差异的原假设 |
| 双向 ANOVA | 具有两个分类协变量的经典回归 | 考虑两个协变量及其交互作用 |
6.2 ANOVA 特点
- 单向 ANOVA :与具有一个分类协变量的经典回归相同,其总体 p 值对应于我们之前介绍的总体 p 值,即检验所有类别之间无差异的原假设。此外,通常还会报告不同类别之间单个成对比较的 p 值,并希望对多重检验进行调整。
- 双向 ANOVA :与具有两个分类协变量的经典回归相同。但在回归中,我们通常从没有交互作用的两个协变量模型开始,而许多 ANOVA 程序在进行标准双向 ANOVA 时会考虑包含所有交互作用的模型。报告的单个变量的效应(称为主效应)是指在存在交互作用的情况下评估单个协变量效应的方法。不同的 ANOVA 程序可能会因子组特定效应的权重不同而得出不同的主效应。
6.3 ANOVA 发展与应用
ANOVA 在上个世纪初就已发展起来,是一种无需计算器或计算机即可应用的方法。它需要计算特定的平方和,并将结果报告在所谓的 ANOVA 表中。这部分解释了 ANOVA 结果的报告方式。协方差分析(ANCOVA)是 ANOVA 的扩展,允许纳入连续协变量,它对应于具有分类和连续协变量的回归分析。
6.4 ANOVA 分析流程
graph LR
A[确定协变量类型] --> B{单向或双向 ANOVA}
B -- 单向 --> C[进行单向 ANOVA 分析]
B -- 双向 --> D[进行双向 ANOVA 分析]
C --> E[报告总体 p 值和成对比较 p 值]
D --> F[考虑交互作用并报告主效应]
超级会员免费看
2658

被折叠的 条评论
为什么被折叠?



