DeepSeek浪潮下，MedHELM 如何重塑AI医疗大模型评估？

原创

于 2025-04-21 15:08:36 发布 · 1.1k 阅读

·

6

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

随着 DeepSeek 的开源，大模型发展迎来重要变革，医疗行业在这一技术浪潮中处于前沿。

据蓝海大脑研究数据显示，仅在 2025 年 3 月，涉及 DeepSeek 的相关项目规模就颇为可观。

众多医疗机构积极引入 DeepSeek 相关技术，以下是 2025 年 3 月 29 日部分医院的部署情况：

2025 年 3 月 29 日部分医院 DeepSeek 技术部署情况

近日某大学三甲医院部署 H20 相关设备，具体配置及性能数据如下：

单台 NVIDIA H20 配置 141GB 显存的一体机，用户并发数量为 128，token 量为 1052.92token/s。
双机配置下，2 台配置 96GB 显存的一体机，用户并发数量为 1024，token 量为 3113.38token/s。

据公开资料，在使用 DeepSeek R1 进行带思维链深度思考的短输入长输出问答场景时：

单个用户并发时，解码性能为 33.3tokens/s。
16 个用户并发时，每个用户的解码性能约为 20tokens/s。
64 个用户并发时，每个用户的解码性能约为 10.4tokens/s。
1024 个用户并发时，单台 H20 141G 八卡机实现了 3975.76tokens/s 的吞吐性能。

大型语言模型（LLM）在医疗保健领域具有显著的应用潜力，其应用范围涵盖从诊断决策到患者分诊等多个方面。常通过标准化医学考试，如美国医师执照考试（USMLE）对语言模型在医疗领域的能力进行评估。然而近期研究指出，单纯依据考试成绩评估临床实践能力存在局限性，类似于仅通过交通规则笔试来评估驾驶能力。

尽管 LLM 能够针对医疗保健问题生成复杂的回答，但其在实际临床应用中的表现仍有待深入检验。JAMA 的一项审查显示，仅有 5% 的评估使用真实患者数据，且多数研究聚焦于标准化体检表现的评估。这一现状凸显了构建更完善评估体系的紧迫性，该体系应尽可能基于真实临床数据，以准确衡量模型在实际医疗任务中的表现。

在医疗行业加速迈进智能化的进程中，大型语言模型（LLM）的应用愈发广泛，从辅助诊断决策到优化患者分诊流程，其潜力不断被挖掘。然而，如何精准衡量这些模型在真实医疗场景中的表现，成为了亟待解决的关键问题。过

最低0.47元/天解锁文章

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。