本文是LLM系列文章,针对《Evaluating the Application of Large Language Models to Generate Feedback in Programming Education》的翻译。
摘要
这项研究调查了大型语言模型,特别是GPT-4的应用,以加强编程教育。这项研究概述了一个web应用程序的设计,该应用程序使用GPT-4提供编程任务的反馈,而不泄露解决方案。为这项研究开发了一个用于处理编程任务的网络应用程序,并在一个学期内对51名学生进行了评估。结果表明,GPT-4生成的大多数反馈都有效地解决了代码错误。然而,错误建议和幻觉问题带来的挑战表明需要进一步改进。
1 引言
2 相关工作
3 评估
4 结果
5 讨论
6 结论
对Tutor Kai的评估表明,GPT-4生成的反馈已经识别并提到了代码中的大多数问题。同时,相关研究在过去遇到的反馈中出现代码的问题几乎已经完全解决。总的来说,学生们对反馈的评价相对积极,从1到7分,平均为5.05分。发现的一个问题是,当学生被要求评估所有反馈时&#x