DeepSeek浪潮下,MedHELM 如何重塑AI医疗大模型评估?

随着 DeepSeek 的开源,大模型发展迎来重要变革,医疗行业在这一技术浪潮中处于前沿。

据蓝海大脑研究数据显示,仅在 2025 年 3 月,涉及 DeepSeek 的相关项目规模就颇为可观。

众多医疗机构积极引入 DeepSeek 相关技术,以下是 2025 年 3 月 29 日部分医院的部署情况:

2025 年 3 月 29 日部分医院 DeepSeek 技术部署情况

近日某大学三甲医院部署 H20 相关设备,具体配置及性能数据如下:

  • 单台 NVIDIA H20 配置 141GB 显存的一体机,用户并发数量为 128,token 量为 1052.92token/s。

  • 双机配置下,2 台配置 96GB 显存的一体机,用户并发数量为 1024,token 量为 3113.38token/s。

据公开资料,在使用 DeepSeek R1 进行带思维链深度思考的短输入长输出问答场景时:

  • 单个用户并发时,解码性能为 33.3tokens/s。

  • 16 个用户并发时,每个用户的解码性能约为 20tokens/s。

  • 64 个用户并发时,每个用户的解码性能约为 10.4tokens/s。

  • 1024 个用户并发时,单台 H20 141G 八卡机实现了 3975.76tokens/s 的吞吐性能。

大型语言模型(LLM)在医疗保健领域具有显著的应用潜力,其应用范围涵盖从诊断决策到患者分诊等多个方面。常通过标准化医学考试,如美国医师执照考试(USMLE)对语言模型在医疗领域的能力进行评估。然而近期研究指出,单纯依据考试成绩评估临床实践能力存在局限性,类似于仅通过交通规则笔试来评估驾驶能力。

尽管 LLM 能够针对医疗保健问题生成复杂的回答,但其在实际临床应用中的表现仍有待深入检验。JAMA 的一项审查显示,仅有 5% 的评估使用真实患者数据,且多数研究聚焦于标准化体检表现的评估。这一现状凸显了构建更完善评估体系的紧迫性,该体系应尽可能基于真实临床数据,以准确衡量模型在实际医疗任务中的表现。

在医疗行业加速迈进智能化的进程中,大型语言模型(LLM)的应用愈发广泛,从辅助诊断决策到优化患者分诊流程,其潜力不断被挖掘。然而,如何精准衡量这些模型在真实医疗场景中的表现,成为了亟待解决的关键问题。过

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值