C-EVAL: A Multi-Level Multi-Discipline Chinese Evaluation Suite for Foundation Models
前言
一篇关于评估大模型中文能力的benchmark工作,虽然从benchmark的设计角度来看没有额外的新意,但是从故事性和切入点来说都是一个非常不错的工作。此外,文末的Conclusion部分我还对benchmark的设计原则进行了讨论,感兴趣的朋友可以直接跳到文章最后部分查看。| Paper | https://arxiv.org/abs/2305.08322 |
|---|---|
| Huggingface | https://huggingface.co/datasets/ceval/ceval-exam |
| Code | https://github.com/hkust-nlp/ceval |
| From | NeurIPS 2023 |
Abstract
C-EVAL是第一个全面的中文benchmark用于评估LLMs在中文语境下的基础储备和推理能力。C-EVAL包含四个不同等级的多选问题:中学,高中,大学和职业。这些问题涵盖了来自人文科学到理工科学等52个不同学科领域。此外C-EVAL还附带了C-EVAL HARD,这是更具有挑战的课题,需要高级的推理能力。作者对当前先进的LLMs在C-EVAL上进行评估,结果显示

最低0.47元/天 解锁文章

被折叠的 条评论
为什么被折叠?



