来咯,又一篇超厉害的文献被发现啦!还是机器学习建模+SHAP的组合,成功发表在医学知名期刊上,直接拿下二区,影响因子也相当不错!如今,机器学习建模和SHAP解释的联用正流行,这篇文章就是很好的范例。新技术联用不仅创新性高,还具有一定技术难度,当然,难度与高分也是并存的!有生信基础的小伙伴不妨尝试运用,能让文章增色不少。要是小白觉得有难度,也别担心错过这波发文红利,可以来找帮主专业团队帮忙呀!
下面咱们来好好瞧瞧这篇文章,中山大学团队的研究思路十分巧妙,很值得学习:
1.数据应用:该研究使用SEER数据库进行分析和建模。本文中SEER数据库具有显著优势,其包含大量癌症诊断与生存数据,为研究提供丰富信息。数据公开且无需额外伦理审批,便于获取。这使得研究可基于大样本开展,增强结果可靠性,有力支撑膀胱癌预后模型构建及相关分析。
2.热门选题:聚焦膀胱癌患者根治性膀胱切除术后5年癌症特异性死亡率的预测,这在膀胱癌研究领域是关键问题。通过构建机器学习模型来解决,契合当下医学研究利用新技术探索疾病预后的趋势 。
3.思路设计:运用6种机器学习算法建模,并借助SHAP方法解释模型,全面评估模型性能并与现有模型对比,技术手段先进。整体数据、选题和分析思路都极具创新性,为相关研究提供了新思路
题目:使用机器学习来预测接受根治性膀胱切除术的膀胱癌患者的癌症特异性死亡率:基于先知的研究。
杂志:BMC CANCER
影响因子:IF=3.4
发表时间:2025年5月
研究背景
膀胱癌是全球常见癌症,根治性膀胱切除术是其重要治疗手段,但术后5年癌症特异性死亡率约46%。目前评估患者预后的模型存在变量多、难获取信息以及未充分利用现代技术等问题。虽然机器学习在医学领域应用广泛,但在膀胱癌预后预测方面的研究较少。因此,本文旨在利用机器学习构建可解释的预后模型,预测膀胱癌患者根治性膀胱切除术后5年癌症特异性死亡率,并与现有模型比较。
研究思路
研究结果
1.数据收集与整理
以SEER数据库中2000 - 2020年及中山大学附属第一医院2016 - 2019年的膀胱癌患者数据为对象。经筛选,最终8380例患者纳入研究,其中训练集6656例、内部验证集1664例、外部验证集60例(图1)。整理患者年龄、性别、病理等多方面信息,为后续分析做准备(表1)。


2.预后因素确定
运用单变量和多变量Cox回归分析上述患者数据。确定年龄、种族、病理等8个独立预后因素。年龄≥65岁、黑色人种、非尿路上皮癌等因素与较差的癌症特异性生存相关;结婚和接受化疗则与较好的生存相关(表2)。

3.模型构建与评估
采用6种机器学习算法(LightGBM、GBDT等)和Cox比例风险回归模型(CPH),以训练集数据构建模型。通过C指数和Brier分数评估,发现LightGBM模型表现最佳。内部验证集C指数0.723、Brier分数0.191;外部验证集C指数0.791、Brier分数0.134(表3)。

4.对LightGBM模型进行解释
图2从全局展示,淋巴结密度和肿瘤分期对预后影响最大。图3通过瀑布图和力场图,针对两个特定患者进行局部解释,展示各特征对预测结果的贡献,蓝色特征倾向“生存”,红色倾向“死亡”(图2、图3)。


5.模型比较
将LightGBM模型与3种现有模型对比。图4(ROC曲线)、图5(校准曲线)和图6(决策曲线分析,DCA)显示,LightGBM模型在判别和校准能力上更优,临床实用性更强。在不同阈值概率下,其DCA曲线净效益更大,能更好地指导临床决策。


