文章主要内容总结
本研究系统评估了2022年11月至2025年4月期间发布的27个前沿大型语言模型(LLMs)在8个生物学基准测试(涵盖分子生物学、遗传学、克隆、病毒学和生物安全等领域)上的表现。主要发现包括:
- 模型性能显著提升:在病毒学能力测试(VCT-Text)的纯文本子集上,顶级模型的性能在研究期间提升了4倍以上,目前顶级模型的表现是病毒学专家的两倍。在其他挑战性基准测试(如LAB-Bench克隆场景、GPQA和WMDP的生物学子集)中,多个模型达到或超过了专家水平。
- 提示策略的影响有限:与零样本评估相比,思维链(chain-of-thought)提示并未显著提升性能,而o3-mini和Claude 3.7 Sonnet的扩展推理功能通常如推理规模预测的那样提高了性能。
- 基准测试的局限性:PubMedQA、MMLU和WMDP的生物学子集表现出明显的性能平台期,表明基准测试可能已饱和,且基础基准数据存在误差。研究强调,随着AI系统的不断发展,需要更复杂的评估方法。
文章创新点
- 系统性评估:首次对27个LLMs