E-EVAL: A Comprehensive Chinese K-12 Education Evaluation Benchmark for Large Language Models

828 篇文章

已下架不支持订阅

E-EVAL是首个针对中国K-12教育的全面评估基准,用于测试LLM在多学科的能力。研究显示中文主导模型在某些情况下优于GPT 4.0,但在数学等复杂科目中表现不佳。此外,模型在高阶知识的掌握并不一定意味着低阶知识精通,且在小学水平上的表现通常不理想。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

本文是LLM系列文章,针对《E-EVAL: A Comprehensive Chinese K-12 Education Evaluation Benchmark for Large Language Models》的翻译。

E-EVAL:一个适用于大型语言模型的中国K-12教育综合评估基准

摘要

随着大型语言模型(LLM)的不断发展,许多LLM开始应用于中国K-12教育领域。LLM与教育的融合越来越紧密,但目前还没有针对中国K-12教育领域的LLM评估基准。因此,迫切需要一个全面的自然语言处理基准来准确评估中国K-12教育领域中各种LLM的能力。为了解决这一问题,我们引入了E-EVAL,这是第一个专门为中国K-12教育领域设计的综合评估基准。E-EVAL由4351道小学、中学和高中的多项选择题组成,涉及广泛的科目,包括语文、英语、政治、历史、道德、物理、化学、数学和地理。我们对高级LLM的EEVAL进行了全面评估,包括英语主导模式和汉语主导模式。研究结果表明,与英语主导模型相比,中文主导模型表现良好,许多模型的得分甚至高于GPT 4.0。然而,几乎所有的模型在数学等复杂科目中都表现不佳。我们还发现,与中学水平相比,大多数中文主导LLM在小学水平上的成绩并不高。我们观察到,模型对高阶知识的掌握并不一定意味着对低阶知识的精通。此外,实验结果表明,思维链技术仅对具有挑战性的理科科目有效,而小样本提示对文科科目更有利。通过E-EVAL,我

已下架不支持订阅

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值