Applying Large Language Models and Chain-of-Thought for Automatic Scoring

最新推荐文章于 2025-11-25 12:11:01 发布

UnknownBody

最新推荐文章于 2025-11-25 12:11:01 发布

阅读量942

点赞数 18

CC 4.0 BY-SA版权

文章标签：语言模型人工智能 python

本文链接：https://blog.youkuaiyun.com/c_cpp_csharp/article/details/135696500

LLM 日更专栏收录该内容

828 篇文章

已下架不支持订阅

本文探讨了GPT-3.5和GPT-4结合思维链（CoT）在自动评分科学评估中的应用，发现小样本学习结合CoT能显著提高评分准确性。GPT-4在评分任务中表现优于GPT-3.5，单次调用策略与贪婪采样效果最佳。研究还引入了PPEAS方法，以实现不同熟练度类别的准确性平衡。

本文是LLM系列文章，针对《Applying Large Language Models and Chain-of-Thought for Automatic Scoring》的翻译。

摘要

本研究调查了大型语言模型（LLM），特别是GPT-3.5和GPT-4，以及思维链（CoT）在学生对科学评估的书面反应自动评分中的应用。我们专注于克服可访问性、技术复杂性和缺乏解释性的挑战，这些挑战以前限制了研究人员和教育工作者使用自动评估工具。我们使用了一个测试数据集，包括六项评估任务（三项二项式和三项三项式），1650名学生回答。我们采用了六种提示工程策略，将零样本或小样本学习与CoT相结合，无论是单独学习还是与项目主干和评分准则相结合。结果表明，少数学生（acc=.67）的学习成绩优于零样本学习（acc=.60），为12.6%增长。当在没有项目词干和评分规则的情况下使用CoT时，不会显著影响评分准确性（acc=.60）。然而，CoT提示与上下文项目词干或评分规则配对被证明是评分准确性的重要贡献者（零样本增加13.44%；少搜索增加3.7%）。使用一种新的方法PPEAS，我们发现不同熟练度类别的准确性更加平衡，突出了领域特定推理在提高LLM在评分任务中的有效性方面的重要性。此外，我们还发现GPT-4在各种评分任务中表现出优于GPT-3.5的性能，差异为8.64%。研究表明，GPT-4的单次调用策略，特别是使用贪婪采样，优于其他方法，包括集合投票策略。这项研究证明了LLM在促进自动评分方面的潜力，强调CoT可以提高准确性，特别是当与项目词干和评分准则一起使用时。