生存数据cox-nomogram-临床预测研究代码-实测可行

皮肤小白生

于 2025-01-23 17:41:53 发布

阅读量381

点赞数 10

分类专栏：大模型 R语言文章标签：算法

本文链接：https://blog.youkuaiyun.com/weixin_46587777/article/details/145327030

版权

R语言同时被 2 个专栏收录

107 篇文章

订阅专栏

大模型

10 篇文章

订阅专栏

在临床预测研究中，构建一个可靠、准确且具有广泛适用性的预测模型是研究者面临的核心挑战。模型的有效性不仅取决于其在开发阶段的性能，更重要的是其在未知数据集上的泛化能力。

传统的模型评估方法常存在一个关键误区：在训练集和验证集中分别建立独立模型。这种做法实际上会严重扭曲模型的真实预测能力。正确的方法是在训练集中建立统一模型，并使用相同的模型参数分别对训练集和验证集进行性能评估。

具体而言，研究者应遵循以下原则：

在训练集中开发Cox回归模型
使用同一模型参数在训练集和验证集中绘制评估曲线
避免在不同数据集中重复建模

这种方法不仅能准确反映模型的实际预测能力，还能确保研究结果的科学性和可重复性。对于临床预测研究而言，方法的严谨性与结果的可靠性同等重要。

数据集拆分的R代码示例：

# 加载所需的库
library(dplyr)

# 假设我们有一个名为data的数据框
data <- data.frame(your_data)

# 定义函数，拆分数据集为训练集和验证集
split_data <- function(dataset, val_size = 0.5, seed = NULL) {
  
  # 设置随机种子（如果有提供）
  if (!is.null(seed)) set.seed(seed)
  
  # 随机拆分数据集，获取验证集的索引
  val_index <- sample(1:nrow(dataset), size = round(nrow(dataset) * val_size))
  
  # 拆分成训练集和验证集
  train_data <- dataset[-val_index, ]
  val_data <- dataset[val_index, ]
  
  # 返回训练集和验证集
  return(list(train = train_data, validation = val_data))
}

# 按照7:3拆分训练集和验证集，设置seed为1234
split_result <- split_data(data, val_size = 0.3, seed = 1234)

# 从拆分结果中提取训练集和验证集
train_data <- split_result$train
validation_data <- split_result$validation

# 假设我们有一个名为external_data的外部验证数据集
external_data <- your_external_data

建立 cox 回归和 nomogram R代码示例：

# 生存分析与预后模型构建 -------------------------------------------------

# 加载必要的库 ------------------------------------------------------
library(rms)     # 高级统计建模
library(survival)# 生存分析
library(pROC)    # ROC曲线和AUC
library(ggplot2) # 可视化

# 数据预处理与变量转换 ------------------------------------------------
preprocess_survival_data <- function(data, 
                                     time_var = "time", 
                                     status_var = "status", 
                                     predictor_vars = NULL) {
  # 检查必要变量
  if (!all(c(time_var, status_var) %in% names(data))) {
    stop("缺少必要的时间或状态变量")
  }
  
  # 检查生存时间是否非负
  if (any(data[[time_var]] < 0)) {
    warning("生存时间存在负值，已调整为0")
    data[[time_var]] <- pmax(data[[time_var]], 0)
  }
  
  # 分类变量转换示例（可根据实际数据修改）
  if (!is.null(predictor_vars)) {
    for (var in predictor_vars) {
      if (is.numeric(data[[var]])) {
        # 对于连续变量，可以考虑分组
        # data[[var]] <- cut(data[[var]], breaks = c(...), labels = c(...))
      } else if (is.character(data[[var]]) || is.factor(data[[var]])) {
        data[[var]] <- factor(data[[var]])
      }
    }
  }
  
  return(data)
}

# Cox比例风险模型构建 ------------------------------------------------
build_cox_model <- function(data, 
                             time_var = "time", 
                             status_var = "status", 
                             predictor_vars = NULL) {
  # 预处理数据
  processed_data <- preprocess_survival_data(data, 
                                             time_var, 
                                             status_var, 
                                             predictor_vars)
  
  # 构建模型公式
  formula <- as.formula(paste0("Surv(", time_var, ", ", status_var, ") ~ ", 
                                paste(predictor_vars, collapse = " + ")))
  
  # 使用rms包构建模型
  options(datadist = NULL)
  ddist <- datadist(processed_data)
  options(datadist = 'ddist')
  
  model_rms <- tryCatch({
    rms::cph(formula, 
             data = processed_data, 
             surv = TRUE, 
             x = TRUE, 
             y = TRUE)
  }, error = function(e) {
    stop("模型构建失败：", e$message)
  })
  
  return(list(
    model_rms = model_rms,
    processed_data = processed_data
  ))
}

# 生存率预测函数 -----------------------------------------------------
create_survival_functions <- function(model, time_points = c(1, 3, 5)) {
  surv <- Survival(model)
  
  # 生成多个时间点的生存率预测函数
  surv_funcs <- lapply(time_points, function(years) {
    function(x) surv(years * 365.25, lp = x)
  })
  
  names(surv_funcs) <- paste0(time_points, "-Year Survival")
  return(surv_funcs)
}

# 生成诺莫图 ---------------------------------------------------------
generate_nomogram <- function(model, survival_funcs) {
  nom.cox <- tryCatch({
    nomogram(model,
             fun = survival_funcs,
             lp = TRUE,
             funlabel = names(survival_funcs),
             maxscale = 100,
             fun.at = c('0.99', '0.9', '0.7', '0.5', '0.3', '0.1', '0.01'))
  }, error = function(e) {
    warning("生成诺莫图出错：", e$message)
    return(NULL)
  })
  
  return(nom.cox)
}

# C指数计算与可信区间 ------------------------------------------------
calculate_c_index <- function(data, 
                               time_var = "time", 
                               status_var = "status", 
                               predictor_vars = NULL) {
  formula <- as.formula(paste0("Surv(", time_var, ", ", status_var, ") ~ ", 
                                paste(predictor_vars, collapse = " + ")))
  
  model <- coxph(formula, data = data)
  c_index_summary <- summary(model)$concordance
  
  # 计算C指数及其95%可信区间
  return(list(
    c_index = c_index_summary[1],
    lower_ci = c_index_summary[1] - 1.96 * c_index_summary[2],
    upper_ci = c_index_summary[1] + 1.96 * c_index_summary[2]
  ))
}

# 使用示例 -----------------------------------------------------------
# 假设 train_data 是你的训练数据集
# predictor_vars <- c("predictor1", "predictor2")
# 
# # 构建Cox模型
# cox_result <- build_cox_model(train_data, 
#                               time_var = "time", 
#                               status_var = "status", 
#                               predictor_vars = predictor_vars)
# 
# # 创建生存函数
# survival_funcs <- create_survival_functions(cox_result$model_rms)
# 
# # 生成诺莫图
# nom.cox <- generate_nomogram(cox_result$model_rms, survival_funcs)
# plot(nom.cox, cex.axis = 1.2, cex.lab = 1.2)
# 
# # 计算C指数
# c_index_result <- calculate_c_index(train_data, 
#                                     time_var = "time", 
#                                     status_var = "status", 
#                                     predictor_vars = predictor_vars)

preprocess_survival_data(): 数据预处理
build_cox_model(): 构建Cox比例风险模型
create_survival_functions(): 创建生存率预测函数
generate_nomogram(): 生成预后诺莫图
calculate_c_index(): 计算模型区分度指标