本文是LLM系列文章,针对《E-EVAL: A Comprehensive Chinese K-12 Education Evaluation Benchmark for Large Language Models》的翻译。
摘要
随着大型语言模型(LLM)的不断发展,许多LLM开始应用于中国K-12教育领域。LLM与教育的融合越来越紧密,但目前还没有针对中国K-12教育领域的LLM评估基准。因此,迫切需要一个全面的自然语言处理基准来准确评估中国K-12教育领域中各种LLM的能力。为了解决这一问题,我们引入了E-EVAL,这是第一个专门为中国K-12教育领域设计的综合评估基准。E-EVAL由4351道小学、中学和高中的多项选择题组成,涉及广泛的科目,包括语文、英语、政治、历史、道德、物理、化学、数学和地理。我们对高级LLM的EEVAL进行了全面评估,包括英语主导模式和汉语主导模式。研究结果表明,与英语主导模型相比,中文主导模型表现良好,许多模型的得分甚至高于GPT 4.0。然而,几乎所有的模型在数学等复杂科目中都表现不佳。我们还发现,与中学水平相比,大多数中文主导LLM在小学水平上的成绩并不高。我们观察到,模型对高阶知识的掌握并不一定意味着对低阶知识的精通。此外,实验结果表明,思维链技术仅对具有挑战性的理科科目有效,而小样本提示对文科科目更有利。通过E-EVAL,我