AC-EVAL: Evaluating Ancient Chinese Language Understanding in Large Language Models

AC-EVAL是一个针对大型语言模型在古代汉语理解能力的基准,包含13个任务,覆盖历史、地理等多个领域,旨在推动LLM在古代汉语教育和研究中的进步。

本文是LLM系列文章,针对《AC-EVAL: Evaluating Ancient Chinese Language Understanding in Large Language Models》的翻译。

AC-EVAL:在大型语言模型中评估古代汉语的理解能力

摘要

鉴于古代汉语在捕捉丰富历史文化遗产精髓方面的重要性,大型语言模型(LLM)的快速发展需要能够有效评估其对古代语境理解的基准。为了满足这一需求,我们提出了AC-EVAL,这是一个创新的基准,旨在评估LLM在古代汉语背景下的高级知识和推理能力。AC-EVAL分为三个难度级别,反映了语言理解的不同方面:一般历史知识、短文本理解和长文本理解。该基准包括13项任务,涵盖历史事实、地理、社会习俗、艺术、哲学、古典诗歌和散文,提供了一个全面的评估框架。我们对表现最好的LLM进行了广泛的评估,为英语和汉语量身定制,揭示了提高古代文本理解的巨大潜力。通过突出LLM的优势和劣势,AC-EVAL旨在促进LLM在古代汉语教育和学术研究领域的发展和应用。

1 引言

2 相关工作

3 AC-EVAL概述

4 实验

5 结果

6 结论

我们介绍了AC-EVAL,这是一个旨在评估LLM古代汉语水平的基准,通过广泛覆盖历史知识和语言理解来弥补这一差距。我们的实验揭示了现有LLM的显著改进领域。我们确定了影响LLM性能的关键因素,并提出了增强这些模

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值