司南MedBench3.0全面上新，4200次评测揭示医疗大模型能力长项与核心短板

原创

已于 2025-03-21 11:34:47 修改 · 1.2k 阅读

·

12

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#人工智能 #大模型 #大模型评测 #医疗大模型 #司南评测

于 2025-03-21 11:22:58 首次发布

专业、公正、开放的评测体系是确保人工智能安全、高效发展的关键环节，它不仅是技术发展的“试金石”，也是连接技术与应用、促进跨领域合作的重要桥梁。

上海AI实验室正积极打造面向通用人工智能时代的创新开放评测体系司南（OpenCompass），涵盖通用大模型、安全可信、具身智能、AI计算系统、行业应用等领域，通过科学、公正、全面的评测，对模型与应用的性能、效率、安全性及可靠性作出评估，助力新技术在实际应用中达到预期标准；同时，通过评测识别出当前技术的不足之处，提供优化方向，激励研究者探索创新，进而构建安全、可信、公平的人工智能生态体系。

近日，医疗大模型开放评测平台MedBench升级至3.0版本，新增医疗多模态评测能力，针对真实应用场景，构建了文献问答、复杂推理、临床危急情况识别评测数据集，并继续向业界开放医疗大模型能力评测服务。

MedBench上线一年多来，已有近80家机构加入共建或参与评测，累计开展模型评测4204次，成为业内信赖的模型“度量衡”。通过评测，MedBench3.0揭示了当前医疗大模型普遍的能力长项与核心短板，并提出了优化路径，旨在与各方共建医疗大模型应用生态联盟，以AI助力健康中国建设。

评测入口：https://medbench.opencompass.org.cn

数据集、评估指标、多模态评测上新

为了更全面评估大模型在医疗领域的能力，MedBench新增了多个数据集：

医学知识问答维度数据集MedLitQA，用于评估模型对医学文献理解与推理；
医疗安全和伦理数据集CriID，用于评估模型对临床危急值的识别能力；
复杂医学推理维度的CMB-Clin-extended更新为自建数据集，可基于复杂真实病历，考察模型在真实诊断和治疗情境中的知识应用水平。

最低0.47元/天解锁文章

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。