MedBench迭代升级,找出最合格的“医学生”

MedBench全面升级

MedBench 全面升级

MedBench医疗大模型评测平台进行了全面升级,丰富了评测参评方式,新增API评测,同时优化了开放域问答(Open-domain question answer)的评估指标,通过医学专家标注答题点,进一步确保了评测结果的公平性和专业性。此外,平台在评测数据集、评测方法以及系统功能方面也进行了相应的升级,致力于为医疗大模型评测构建更健全的社区环境,并提供更为丰富、真实的实践场景。

立即参与MedBench评测,官网链接:https://medbench.opencompass.org.cn/home

MedBench 升级优势

MedBench自2024年1月正式上线以来,吸引了广泛的专业关注。迄今为止,共有81位参与者参与了评测,其中涵盖了若干组织/团队和个人参赛者。组织/团队数量为20个,个人参赛者61名,参与评测的模型共计113个。表现优异的组织/团队在五个评测维度上展现出了不同的模型能力,具体表现如下图所示。

在当前的大模型评测体系中,公平性、专业性与准确性是参与者最为关心的内容。然而,对于开放域问答任务中常见的评估指标,如BLEU和ROUGE等,尽管它们在一定程度上能够反映模型的性能,但这些指标只关注n-gram的字面匹配,对形态丰富的语言处理能力有限,且往往无法妥善评估同义词或相似表达下的模型表现。鉴于医疗环境的动态性和数据时效性的重要性,为了保障模型在应对不断变化的医疗场景时能够持续提供高质量服务,定期更新高质量的医学数据变得尤为关键。因此,当前垂类模型评测应聚焦于实用

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值