题目
M3KE:面向中文大型语言模型的海量多层次多学科知识评估基准
论文地址:https://arxiv.org/abs/2305.10263
项目地址:https://github.com/tjunlp-lab/M3KE
摘要
大型语言模型最近在跨任务泛化、指令跟随等多个方面取得了巨大进步。全面评估大型语言模型在多个任务中的能力非常重要。在本文中,我们提出了 M3KE,一种大规模多层次多学科知识评估基准,旨在通过测试中文大型语言模型在零样本和少样本环境下的多任务准确性来衡量它们获得的知识。我们从 71 个任务中收集了 20,477 个问题。我们的选择涵盖了中国教育体系的所有主要层次,从小学到大学,以及各种学科,包括人文、历史、政治、法律、教育、心理学、科学、技术、艺术和宗教。所有问题都是有四个选项的多项选择题,因此保证了标准化和统一的评估过程。我们在提出的基准上评估了许多最先进的开源中文大型语言模型。这些模型的大小从 335M 到 130B 参数不等。实验结果表明,它们的表现明显差于 GPT-3.5,后者在 M3KE 上的准确率达到 ∼ 48%。
简介
大型语言模型 (LLM),近年来取得了显著进展,尤其是 ChatGPT1 的发布,人们普遍认为它彻底改变了自然语言处理领域并改变了人工智能和社会一般来说,LLM 通过自监督学习在大量未标记数据上进行训练,涵盖了百科全书、新闻、书籍、社交媒体等多种类型。许多研究表明,LLM 能够获得多种类型和主题的广泛知识。在 LLM 中引出并应用所获得的知识到下游任务的范式已经从微调转变为指令调优。早期的 LLM 通常采用微调,然而,由于微调后的 LLM 通常是针对特定任务的,并且参数效率不高,因此缺乏跨任务泛化能力,因为通常需要在下游任务上更新所有预训练的 LLM 参数。随着 LLM 达到数十亿个参数的规模,出现了一种更有效的引出知识的替代方法,即情境学习 (ICL) ,它仅使用提示中连接的几个演示示例。为了增强 LLM 对各种下游任务的跨任务泛化能力,有人提出了通过多任务学习进行指令调优。在指令调优中,不同任务的指令不同,但形式统一。监督微调 (SFT) 和从人类反馈中进行强化学习 (RLHF)是成功的指令调整方法,它们不仅实现了对未见指令的泛化,而且还使 LLM 与人类价值观和意图保持一致。
随着 LLM 中知识获取和应用能力的不断快速发展,一个自然而然的问题出现了,那就是我们如何评估这些知识。传统的单任务评估基准已不再适合评估它们。像 GLUE、SuperGLUE和 BIG-bench这样的多任务基准聚合了多个 NLP 任务来评估 LLM,但这也不足以评估 LLM 获取的知识。为了解决这个问题,Hendrycks 等人提出了 MMLU,这是一种广泛使用的基准,用于测试 LLM 的知识获取和应用能力