专业、公正、开放的评测体系是确保人工智能安全、高效发展的关键环节,它不仅是技术发展的“试金石”,也是连接技术与应用、促进跨领域合作的重要桥梁。
上海AI实验室正积极打造面向通用人工智能时代的创新开放评测体系司南(OpenCompass),涵盖通用大模型、安全可信、具身智能、AI计算系统、行业应用等领域,通过科学、公正、全面的评测,对模型与应用的性能、效率、安全性及可靠性作出评估,助力新技术在实际应用中达到预期标准;同时,通过评测识别出当前技术的不足之处,提供优化方向,激励研究者探索创新,进而构建安全、可信、公平的人工智能生态体系。
近日,医疗大模型开放评测平台MedBench升级至3.0版本,新增医疗多模态评测能力,针对真实应用场景,构建了文献问答、复杂推理、临床危急情况识别评测数据集,并继续向业界开放医疗大模型能力评测服务。
MedBench上线一年多来,已有近80家机构加入共建或参与评测,累计开展模型评测4204次,成为业内信赖的模型“度量衡”。通过评测,MedBench3.0揭示了当前医疗大模型普遍的能力长项与核心短板,并提出了优化路径,旨在与各方共建医疗大模型应用生态联盟,以AI助力健康中国建设。
评测入口:https://medbench.opencompass.org.cn
数据集、评估指标、多模态评测上新
为了更全面评估大模型在医疗领域的能力,MedBench新增了多个数据集:
-
医学知识问答维度数据集MedLitQA,用于评估模型对医学文献理解与推理;
-
医疗安全和伦理数据集CriID,用于评估模型对临床危急值的识别能力;
-
复杂医学推理维度的CMB-Clin-extended更新为自建数据集,可基于复杂真实病历,考察模型在真实诊断和治疗情境中的知识应用水平。

最低0.47元/天 解锁文章
397

被折叠的 条评论
为什么被折叠?



