本文是LLM系列文章,针对《MedBench: A Comprehensive, Standardized, and Reliable Benchmarking System for Evaluating Chinese Medical Large Language Models》的翻译。
摘要
在实际部署之前,确保医学大语言模型 (LLM) 对人类的总体功效和益处至关重要。然而,一个被广泛接受和易于使用的医学LLM评估流程仍有待建立,特别是在中文背景下。在这项工作中,我们引入了“MedBench”,这是一个全面、标准化、可靠的中文医学LLM基准测试系统。首先,MedBench汇集了目前最大的评估数据集(300,901个问题),覆盖43个临床专业,对医学LLM进行多方位评估。其次,MedBench 提供标准化、全自动的基于云的评估基础设施,将问题和真实情况进行物理分离。第三,MedBench 实施动态评估机制,以防止捷径学习和回答。请记住,将 MedBench 应用于流行的普通LLM和医学LLM,我们观察到公正的、可重复的评估结果,与医学专业人士的观点基本一致。这项研究为准备中文医学LLM的实际应用奠定了重要的基础,可通过 https://medbench.opencompass.org