本文是LLM系列文章,针对《Can Large Language Models Automatically Score Proficiency of
Written Essays?》的翻译。
摘要
尽管在过去的50年里,人们提出了几种方法来解决自动论文评分(AES)的问题,但在有效性方面仍有很多不足之处。大型语言模型(LLM)是基于Transformer的模型,它展示了在各种任务上的非凡能力。在本文中,我们测试LLM的能力,鉴于他们强大的语言学知识,分析和有效地为书面文章打分。我们试验了两种流行的LLM,即ChatGPT和Llama。我们的目的是检查这些模型是否能够完成这项任务,如果可以,它们的性能在两个层面上,即整体和个人写作特征,在最先进的(SOTA)模型中是如何定位的。我们在设计四种不同的提示时使用了提示工程策略,以最大限度地发挥其潜力。我们在ASAP数据集上进行的实验揭示了一些有趣的观察结果。首先,选择正确的提示在很大程度上取决于任务的模型和性质。其次,这两种LLM在AES中表现出相当的平均性能,在ChatGPT中略有优势。最后,尽管LLM和SOTA两个模型在预测方面存在性能差距,但它们提供反馈以提高论文质量,这可能对教师和学生都有帮助。