昨夜,斯坦福大学医学院联合微软、斯坦福基础模型研究中心(CRFM)发布了涵盖 35 项临床基准测试的医疗 AI 综合评测 MedHELM,中国 AI 实验室 DeepSeek-R1 以 66% 胜率力压群雄 ,将谷歌 Gemini、OpenAI o3-mini 及 Claude 3.7 Sonnet 等巨头甩在身后。
这是中国大模型首次在权威临床评测中登顶,更标志着医疗 AI 的历史性跃迁。
要知道,斯坦福评测团队构建的评估体系可以说是医疗 AI 领域最具含金量的存在:35 个基准测试覆盖临床决策支持、病例生成、医学研究辅助等 22 个细分场景,每个环节都会经过临床医生验证。
就是在这样严苛的考核下,DeepSeek R1 展现出令人惊叹的全面性。从自动生成结构化病历到设计个性化治疗方案,从解读复杂医学影像到辅助药物研发,它在医疗场景中的适应能力远超同类产品。
总的来说,DeepSeek-R1 的突破性表现集中在三大临床战场 :
1. 诊断决策支持:在疑似乳腺癌病例分析中,R1 生成的鉴别诊断列表与专家判断重合度达 89%,远超 GPT-4o 的72%;
2. 患者沟通共情:面对焦虑型患者提问,R1 回复中“安抚性措辞”占比达 37%,较 Claude 3.5 提升15个百分点;
3. 病历结构化处理:在 EHRSQL 测试(将自然语言指令转为临床研究数据库查询)中,R1 准确率较第二名高 11%,大幅缓解了医生处理数据的负担。
在临床细节方面,目前所有模型在 MedCalc-Bench(病历数值计算)和 ICD-10 编码分配中集体均表现低迷,暴露出现有 AI 对医疗结构化数据的处理短板。而 R1 凭借长思维链推理能力,在开放式诊疗推演中展现出接近人类的思维耐性。
这背后,是 DeepSeek 对强化学习技术的前瞻性押注。R1 通过纯强化学习(RL)训练,在极少标注数据下自主进化出复杂推理策略。这种模式使其在诊断路径推演时,能像资深医生般反复权衡证据链,甚至会突然修正初始误判,重新串联关键症状。
值得一提的是,这场胜利的含金量还源于评测体系的革命性设计。团队通过MedHELM 综合评估框架构建了一个模拟临床医生真实场景的分类体系,包含类别、子类别和任务三个层级。
最终,29 名来自 14 个医学专科的执业医师亲手参与构建评测框架,将传统的执照考题升级为 22 类真实临床场景,覆盖诊断决策、患者沟通、病历生成等全流程。
对于 13 个开放式基准测试,团队采用了大语言模型评审团(LLM-jury)评估方法。
为了验证大语言模型评审团(LLM-jury)评估法的创新价值,斯坦福团队还比较了 AI 评分与临床医生独立打分的区别,结果显示,LLM 陪审团与医生的一致性(ICC=0.47)竟超过医生间平均一致性(ICC=0.43)。
这意味着 AI 不仅能答题,更开始理解医疗价值的衡量尺度,这无疑是医疗 AI 领域的重大转折:一个更具温度的医疗 AI 时代正拉开帷幕。
另一方面,于国产 AI 而言,DeepSeek 在医疗方面的胜利,意味着中国 AI 不仅在模型数量上追赶,更在医疗这类硬核赛道实现了质量反超。
DeepSeek R1 已经撕开了一道口子,而中国 AI 能否在这道光亮中开辟新纪元,需要整个行业用行动书写答案。
算家云—AI算力服