司南MedBench3.0全面上新,4200次评测揭示医疗大模型能力长项与核心短板

专业、公正、开放的评测体系是确保人工智能安全、高效发展的关键环节,它不仅是技术发展的“试金石”,也是连接技术与应用、促进跨领域合作的重要桥梁。

上海AI实验室正积极打造面向通用人工智能时代的创新开放评测体系司南(OpenCompass),涵盖通用大模型、安全可信、具身智能、AI计算系统、行业应用等领域,通过科学、公正、全面的评测,对模型与应用的性能、效率、安全性及可靠性作出评估,助力新技术在实际应用中达到预期标准;同时,通过评测识别出当前技术的不足之处,提供优化方向,激励研究者探索创新,进而构建安全、可信、公平的人工智能生态体系。

近日,医疗大模型开放评测平台MedBench升级至3.0版本,新增医疗多模态评测能力,针对真实应用场景,构建了文献问答、复杂推理、临床危急情况识别评测数据集,并继续向业界开放医疗大模型能力评测服务。

MedBench上线一年多来,已有近80家机构加入共建或参与评测,累计开展模型评测4204次,成为业内信赖的模型“度量衡”。通过评测,MedBench3.0揭示了当前医疗大模型普遍的能力长项与核心短板,并提出了优化路径,旨在与各方共建医疗大模型应用生态联盟,以AI助力健康中国建设。

评测入口:https://medbench.opencompass.org.cn

数据集、评估指标、多模态评测上新

为了更全面评估大模型在医疗领域的能力,MedBench新增了多个数据集:

  • 医学知识问答维度数据集MedLitQA,用于评估模型对医学文献理解与推理;

  • 医疗安全和伦理数据集CriID,用于评估模型对临床危急值的识别能力;

  • 复杂医学推理维度的CMB-Clin-extended更新为自建数据集,可基于复杂真实病历,考察模型在真实诊断和治疗情境中的知识应用水平。

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值