MedBench迭代升级，找出最合格的“医学生”

最新推荐文章于 2025-12-03 08:43:36 发布

原创

最新推荐文章于 2025-12-03 08:43:36 发布 · 1.8k 阅读

·

26

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#人工智能 #AIGC #github #深度学习 #数据库 #opencv #神经网络

MedBench 全面升级

MedBench医疗大模型评测平台进行了全面升级，丰富了评测参评方式，新增API评测，同时优化了开放域问答（Open-domain question answer）的评估指标，通过医学专家标注答题点，进一步确保了评测结果的公平性和专业性。此外，平台在评测数据集、评测方法以及系统功能方面也进行了相应的升级，致力于为医疗大模型评测构建更健全的社区环境，并提供更为丰富、真实的实践场景。

立即参与MedBench评测，官网链接：https://medbench.opencompass.org.cn/home

MedBench 升级优势

MedBench自2024年1月正式上线以来，吸引了广泛的专业关注。迄今为止，共有81位参与者参与了评测，其中涵盖了若干组织/团队和个人参赛者。组织/团队数量为20个，个人参赛者61名，参与评测的模型共计113个。表现优异的组织/团队在五个评测维度上展现出了不同的模型能力，具体表现如下图所示。

在当前的大模型评测体系中，公平性、专业性与准确性是参与者最为关心的内容。然而，对于开放域问答任务中常见的评估指标，如BLEU和ROUGE等，尽管它们在一定程度上能够反映模型的性能，但这些指标只关注n-gram的字面匹配，对形态丰富的语言处理能力有限，且往往无法妥善评估同义词或相似表达下的模型表现。鉴于医疗环境的动态性和数据时效性的重要性，为了保障模型在应对不断变化的医疗场景时能够持续提供高质量服务，定期更新高质量的医学数据变得尤为关键。因此，当前垂类模型评测应聚焦于实用

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。