MedBench: A Comprehensive, Standardized, and Reliable Benchmarking System for Evaluating Chinese

本文是LLM系列文章,针对《MedBench: A Comprehensive, Standardized, and Reliable Benchmarking System for Evaluating Chinese Medical Large Language Models》的翻译。

MedBench:全面、标准化、可靠的中文医学大语言模型评估基准系统

摘要

在实际部署之前,确保医学大语言模型 (LLM) 对人类的总体功效和益处至关重要。然而,一个被广泛接受和易于使用的医学LLM评估流程仍有待建立,特别是在中文背景下。在这项工作中,我们引入了“MedBench”,这是一个全面、标准化、可靠的中文医学LLM基准测试系统。首先,MedBench汇集了目前最大的评估数据集(300,901个问题),覆盖43个临床专业,对医学LLM进行多方位评估。其次,MedBench 提供标准化、全自动的基于云的评估基础设施,将问题和真实情况进行物理分离。第三,MedBench 实施动态评估机制,以防止捷径学习和回答。请记住,将 MedBench 应用于流行的普通LLM和医学LLM,我们观察到公正的、可重复的评估结果,与医学专业人士的观点基本一致。这项研究为准备中文医学LLM的实际应用奠定了重要的基础,可通过 https://medbench.opencompass.org

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值