36、临床数据统计挖掘：IPCW方法及随机森林应用解析

熬夜协会会长

于 2025-08-19 09:47:01 发布

阅读量55

点赞数

CC 4.0 BY-SA版权

分类专栏：解密药物研发中的数据科学文章标签：临床数据统计挖掘 IPCW方法随机森林

本文链接：https://blog.youkuaiyun.com/tcp8optimizer/article/details/151058867

解密药物研发中的数据科学专栏收录该内容

49 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

临床数据统计挖掘：IPCW方法及随机森林应用解析

1. 数据与模型参数

在临床数据统计分析中，几个关键的数据对象和参数值得关注。“predictors” 是一个矩阵，它包含了模型中纳入的患者协变量值，矩阵的每一行对应着用于拟合模型的患者区间。“outcome” 则是一个二进制值向量，代表着每个患者区间的治疗转换指标。“ntree” 是随机森林算法的一个参数，用于指定作为随机森林一部分拟合的分类树数量。

在构建分类树时，对于随机选择作为分割候选的协变量数量（“mtry” 参数）采用了默认设置，即使用所有可用预测变量数量的平方根。当模型估计完成后，可以使用 randomForest 包中的 “predict” 函数来获取不转换（因不可忽略原因保持未删失）的预测概率，代码如下：

pred <- as.data.frame(predict(model, newdata = predictors, type = "prob"))

这里，“model” 是前面估计的 “randomForest” 对象，“newdata = predictors” 表示要为相同的患者区间和协变量值数据集提供预测，“type = “prob”” 参数要求以概率形式而不是二进制结果进行预测，这些预测概率用于计算稳定权重的分子或分母。

2. IPCW方法结果分析

当应用逆概率删失加权（IPCW）方法时，探索该方法第一部分估计的权重分布非常重要。正确模型设定的一个必要条件是稳定权重的均值为 1。

以下是 IPCW 分析中稳定权重的描述性统计数据：
| 治疗组 | 方法 | N | 均值 | 标准差 | 最小值 | 最大值 | Q1 | 中位数 | Q3 |
| — | — | — | — | — | — | — | — | — | — |
| 安慰剂组 | 逻辑回归 | 10,692 | 1.01 | 0.25 | 0.87 | 12.10 | 0.98 | 0.99 | 1.00 |
| 实验组 | 逻辑回归 | 11,039 | 1.00 | 0.07 | 0.92 | 2.78 | 0.98 | 1.00 | 1.00 |
| 安慰剂组 | 随机森林 | 10,692 | 1.02 | 0.24 | 0.27 | 9.60 | 1.00 | 1.00 | 1.00 |
| 实验组 | 随机森林 | 11,039 | 1.01 | 0.11 | 0.28 | 3.67 | 1.00 | 1.00 | 1.00 |

从表中可以看出，无论使用逻辑回归还是随机森林方法来估计不被信息删失的概率，两个治疗组的稳定权重均值都非常接近 1，中位数也接近 1，这符合预期。

未调整分析和使用从逻辑回归和随机森林方法获得的稳定权重的 IPCW 方法的结果显示，调整治疗转换以及其他基线特征后，无论使用哪种方法获得稳定权重，实验治疗都与降低约 41% 的死亡风险相关。逻辑回归的风险比（HR）为 0.59，95% 置信区间 [0.48; 0.68]；随机森林的 HR 为 0.60，95% 置信区间 [0.48; 0.69]。未调整的 HR 为 0.76，95% 置信区间 [0.66; 0.88]。调整分析中较小的 HR 是可以预期的，因为安慰剂组的转换者比实验组多，而调整分析中对此进行了适当的考虑。

3. 随机森林的变量重要性与部分依赖图

随机森林还可以通过估计的变量重要性得分，深入了解哪些协变量对结果的预测能力最强。可以使用 “importance” 函数来获取这些得分：

VI <- importance(model, type = 1)

其中，“type = 1” 参数要求基于对袋外数据进行排列后准确性的平均下降来估计 VI 得分。从用于权重分母的特定治疗模型（包括基线和时间依赖协变量）中可以看到，在两个治疗组中，前四个预测因子分别是治疗终止时间、前列腺特异性抗原（PSA）水平、随机化时间和年龄。

为了进一步了解这些顶级预测因子与治疗转换概率之间的关系，可以使用 “partialPlot” 函数获得部分依赖图，它以图形方式展示了感兴趣变量对分类概率的边际效应。

4. 分析目的与方法选择

这些分析的目的是估计实验治疗与安慰剂的效果，同时调整两个治疗组中接受非标准抗癌治疗可能产生的混杂效应。这对于考虑终身视野的经济评估尤为重要，因为在存在治疗转换的情况下，标准的意向性治疗（ITT）分析可能不适用，无法从因果推断的角度为决策问题（为给定患者群体选择最有效的治疗方法）提供信息。

选择 IPCW 方法来调整治疗转换，是因为分析中有大量潜在的预后协变量（这些协变量可能影响研究人员为前列腺癌患者转换治疗的决策）。而且，正如理论和现有证据所表明的，IPCW 方法最适合治疗转换比例不是很高的研究，此次示例数据集就是这种情况。

IPCW 方法依赖于 “没有未测量的混杂因素” 这一假设，而这一假设无法从观察数据中进行检验。一种策略是在分析中纳入使用专家知识确定的全面的潜在重要混杂因素集（可能包括冗余协变量），并依靠强大的机器学习方法在模型构建过程中提取有用信息。对于纳入观察数据中完全缺失的协变量后结果是否会发生重大变化，可以使用敏感性分析框架进行评估。

5. 逻辑回归与随机森林方法对比

在本次研究中，应用了 IPCW 方法，其中权重使用两种方法进行估计：传统的逻辑回归和现代统计学习方法随机森林。结果显示，使用逻辑回归和随机森林的治疗转换模型得到了相似的结果。

随机森林模型特别值得关注，因为它不受参数模型假设的限制，能够有效地处理大量预测因子而不会过拟合，以良好的预测准确性著称，并且能提供有关所考虑协变量的预测强度及其与结果关系的有用见解。

6. DMML 在临床药物开发中的应用特点

数据挖掘和机器学习（DMML）方法如今已成为临床药物开发各阶段数据分析的重要组成部分，这与过去主要用于临床前 “药物发现” 阶段形成了对比。只要涉及模型选择，就会产生对 DMML 的需求，这可能出现在不同的任务中，包括在存在随机化后事件潜在混杂的情况下传统的总体治疗效果估计，以及个性化/精准医学领域的治疗优化新任务。

临床开发项目中收集的大量患者数据，可以通过有原则地使用 DMML 得到更好的利用，从而为整个药物开发周期的决策过程提供信息。

DMML 在临床数据中的应用具有一些独特特点。与传统的 DMML 应用（如语音和字符识别）不同，临床环境中的 DMML 处理的记录数量相对较少，因为每个患者的纳入都伴随着巨大的成本和其他限制。因此，临床领域的典型 DMML 应用处于中等或小 “n” 和中等/大 “p” 的情况，交叉验证和其他基于重采样的方法起着关键作用。

临床数据建模（无论是随机试验还是观察性研究）都涉及考虑不同来源的混杂和缺失数据的方法，这也解释了在某些应用中整合 DMML 和因果推断方法的趋势。

在药物开发中应用 DMML 的另一个特点是需要控制一类错误或错误发现率，这在机器学习领域是一个新趋势，因为历史上机器学习认为统计显著性的概念无关紧要。通常，许多 DMML 技术的零分布的解析形式不可用，因此需要采用重采样方法。

此外，在临床数据的 DMML 应用中，决策者通常希望得到可解释的解决方案，而不是 “黑匣子”。这通常可以通过对 “黑匣子” 进行后处理，生成可解释的图形显示（如树、边际图、低维投影等）来实现。

7. 数据挖掘的正确应用

在临床领域，“数据挖掘” 有时被赋予了负面含义，被视为 “数据挖掘滥用”。然而，使用有原则的 DMML 策略并在数据挖掘计划中预先指定分析策略，有助于消除数据挖掘的污名，使其成为药物开发过程中改进决策的有价值工具集。

总之，DMML 在临床数据统计挖掘中具有重要作用，通过合理选择方法和应用策略，可以为临床决策提供更准确、可靠的依据。

临床数据统计挖掘：IPCW方法及随机森林应用解析

8. 临床数据挖掘流程总结

为了更清晰地理解整个临床数据挖掘过程，下面通过一个 mermaid 流程图展示主要步骤：

graph LR
    A[数据准备] --> B[模型选择]
    B --> C{方法选择}
    C -->|逻辑回归| D[逻辑回归模型拟合]
    C -->|随机森林| E[随机森林模型拟合]
    D --> F[计算稳定权重]
    E --> F
    F --> G[IPCW分析]
    G --> H[结果评估]
    H --> I[变量重要性分析]
    H --> J[部分依赖图分析]

这个流程图展示了从数据准备开始，经过模型选择、方法确定（逻辑回归或随机森林），到计算稳定权重、进行 IPCW 分析，最后对结果进行评估以及进一步的变量重要性和部分依赖图分析的完整过程。

9. 操作步骤详细说明

下面详细列出临床数据挖掘的操作步骤：
1. 数据准备
- 确定 “predictors” 矩阵，包含模型中患者协变量值，每行对应患者区间。
- 确定 “outcome” 二进制值向量，代表患者区间的治疗转换指标。
- 设定 “ntree” 参数，指定随机森林中分类树的数量。
2. 模型选择与拟合
- 逻辑回归 ：使用合适的逻辑回归函数对数据进行拟合。
- 随机森林 ：
R library(randomForest) model <- randomForest(predictors, outcome, ntree = ntree)
3. 计算稳定权重
- 使用 “predict” 函数获取预测概率：
R pred <- as.data.frame(predict(model, newdata = predictors, type = "prob"))
- 根据预测概率计算稳定权重的分子和分母。
4. IPCW 分析
- 基于计算得到的稳定权重进行 IPCW 分析，估计治疗效果。
5. 结果评估
- 查看稳定权重的描述性统计数据，如均值、标准差等。
- 比较不同方法（逻辑回归和随机森林）下的风险比（HR）和置信区间。
6. 深入分析
- 变量重要性分析 ：
R VI <- importance(model, type = 1)
- 部分依赖图分析 ：
R partialPlot(model, predictors, variable.of.interest)