文章主要内容总结
- 研究背景与目的:早发性结直肠癌(EoCRC,年龄<45岁)发病率逐年上升,但现有筛查指南推荐年龄为45岁,导致年轻患者确诊时多为晚期。研究旨在利用电子健康记录(EHR)数据,通过机器学习(ML)和大型语言模型(LLM)预测EoCRC,以实现早期干预。
- 数据与方法:
- 回顾性分析美国多个医疗系统的1,953例CRC患者,收集确诊前6个月的患者状况、实验室结果和观察数据。
- 对比10种ML模型(如逻辑回归、随机森林、XGBoost等)和微调后的GPT-4o LLM的性能。
- 数据处理:排除家族史、克罗恩病等病例,平衡训练集,使用五折交叉验证优化模型。
- 主要结果:
- 微调后的LLM平均敏感性73%,特异性91%,阴性预测值99.7%,优于多数ML模型。
- ML模型中,梯度提升方法(如XGBoost)和逻辑回归表现较好,但受限于数据不平衡,精度较低。
- LLM可生成自然语言解释,如通过症状、实验室结果(如癌