本文是LLM系列文章,针对《AC-EVAL: Evaluating Ancient Chinese Language Understanding in Large Language Models》的翻译。
摘要
鉴于古代汉语在捕捉丰富历史文化遗产精髓方面的重要性,大型语言模型(LLM)的快速发展需要能够有效评估其对古代语境理解的基准。为了满足这一需求,我们提出了AC-EVAL,这是一个创新的基准,旨在评估LLM在古代汉语背景下的高级知识和推理能力。AC-EVAL分为三个难度级别,反映了语言理解的不同方面:一般历史知识、短文本理解和长文本理解。该基准包括13项任务,涵盖历史事实、地理、社会习俗、艺术、哲学、古典诗歌和散文,提供了一个全面的评估框架。我们对表现最好的LLM进行了广泛的评估,为英语和汉语量身定制,揭示了提高古代文本理解的巨大潜力。通过突出LLM的优势和劣势,AC-EVAL旨在促进LLM在古代汉语教育和学术研究领域的发展和应用。
1 引言
2 相关工作
3 AC-EVAL概述
4 实验
5 结果
6 结论
我们介绍了AC-EVAL,这是一个旨在评估LLM古代汉语水平的基准,通过广泛覆盖历史知识和语言理解来弥补这一差距。我们的实验揭示了现有LLM的显著改进领域。我们确定了影响LLM性能的关键因素,并提出了增强这些模

AC-EVAL是一个针对大型语言模型在古代汉语理解能力的基准,包含13个任务,覆盖历史、地理等多个领域,旨在推动LLM在古代汉语教育和研究中的进步。
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



