MedBench 全面升级
MedBench医疗大模型评测平台进行了全面升级,丰富了评测参评方式,新增API评测,同时优化了开放域问答(Open-domain question answer)的评估指标,通过医学专家标注答题点,进一步确保了评测结果的公平性和专业性。此外,平台在评测数据集、评测方法以及系统功能方面也进行了相应的升级,致力于为医疗大模型评测构建更健全的社区环境,并提供更为丰富、真实的实践场景。
立即参与MedBench评测,官网链接:https://medbench.opencompass.org.cn/home
MedBench 升级优势
MedBench自2024年1月正式上线以来,吸引了广泛的专业关注。迄今为止,共有81位参与者参与了评测,其中涵盖了若干组织/团队和个人参赛者。组织/团队数量为20个,个人参赛者61名,参与评测的模型共计113个。表现优异的组织/团队在五个评测维度上展现出了不同的模型能力,具体表现如下图所示。

在当前的大模型评测体系中,公平性、专业性与准确性是参与者最为关心的内容。然而,对于开放域问答任务中常见的评估指标,如BLEU和ROUGE等,尽管它们在一定程度上能够反映模型的性能,但这些指标只关注n-gram的字面匹配,对形态丰富的语言处理能力有限,且往往无法妥善评估同义词或相似表达下的模型表现。鉴于医疗环境的动态性和数据时效性的重要性,为了保障模型在应对不断变化的医疗场景时能够持续提供高质量服务,定期更新高质量的医学数据变得尤为关键。因此,当前垂类模型评测应聚焦于实用
MedBench全面升级

最低0.47元/天 解锁文章

被折叠的 条评论
为什么被折叠?



