Can Large Language Models Automatically Score Proficiency of Written Essays?

本文是LLM系列文章,针对《Can Large Language Models Automatically Score Proficiency of
Written Essays?》的翻译。

大型语言模型能自动为书面文章的熟练程度打分吗?

摘要

尽管在过去的50年里,人们提出了几种方法来解决自动论文评分(AES)的问题,但在有效性方面仍有很多不足之处。大型语言模型(LLM)是基于Transformer的模型,它展示了在各种任务上的非凡能力。在本文中,我们测试LLM的能力,鉴于他们强大的语言学知识,分析和有效地为书面文章打分。我们试验了两种流行的LLM,即ChatGPT和Llama。我们的目的是检查这些模型是否能够完成这项任务,如果可以,它们的性能在两个层面上,即整体和个人写作特征,在最先进的(SOTA)模型中是如何定位的。我们在设计四种不同的提示时使用了提示工程策略,以最大限度地发挥其潜力。我们在ASAP数据集上进行的实验揭示了一些有趣的观察结果。首先,选择正确的提示在很大程度上取决于任务的模型和性质。其次,这两种LLM在AES中表现出相当的平均性能,在ChatGPT中略有优势。最后,尽管LLM和SOTA两个模型在预测方面存在性能差距,但它们提供反馈以提高论文质量,这可能对教师和学生都有帮助。

1 引言

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值