题目
生成性学生:使用LLM模拟的学生档案支持问题项目评估
论文地址:https://arxiv.org/abs/2405.11591
摘要
评估自动生成的问题项目的质量是一个长期的挑战。在本文中,我们利用LLM来模拟学生档案并生成对多项选择题(mcq)的回答。生成性学生对MCQs的回答可以进一步支持问题项目评估。我们提出生成性学生,一个基于KLI框架设计的提示架构。生成性学生简档是学生已经掌握、混淆或没有知识证据的知识成分列表的函数。我们在启发式评价的主题领域中实例化了生成性学生的概念。我们用GPT-4创造了45个生殖学生他们回答20个mcq。我们发现,生成型学生产生了符合他们个人资料的逻辑和可信的反应。然后,我们将生成性学生的回答与真实学生在同一组mcq上的回答进行了比较,发现了高度的相关性。此外,生成性学生和真实学生识别的困难问题有相当大的重叠。随后的案例研究表明,教师可以根据生成性学生提供的信号提高问题质量。
CCS概念应用计算→计算机辅助教学。
生成智能体;试题评估;生成人工智能
图1:生成性学生提示架构的设计基于KLI框架,该框架使用知识组件(KC)来定义学生期望学习的元素。在为给定任务(a)识别出知识的情况下,生成性学生的简档是学生已经掌握、对知识(b)有困惑或没有知识证据的知识列表的函数。用户可以为给定的任务定义主提示、混淆提示和未知提示©。因此,这种体系结构支持自动创建多样化的学生档案(d)。
引言
几十年的教育研究表明,主动学习[9,12,15,26],一对一辅导[6,24]和有意识的练习[16,17]在提高学生的学习成绩方面大有裨益。这些理论强调了为学生提供动手解决问题和回答问题的机会以促进学习的好处。长期以来,教育界一直对大规模学习和人工智能感兴趣,研究有效的问题生成技术[5,28],以支持大规模创建高质量的问题项目,从而增强主动学习、辅导和有意练习。多项选择题的产生特别令人感兴趣,因为它们在评分的简易性和反馈的自动提供方面具有实用价值[5,28,42,46,47,50]。
先前的工作已经探索了多种方法来支持出于教育目的的多项选择问题创建,包括来自学生的众包问题[42,57],细读先前学生的解决方案和错误以生成新问题[46,47],使用教师-人工智能协作方法,其中教师接收人工智能建议[29],以及利用人工智能的全自动技术[5,13,21,28,30,31,43,48,50]。随着生成式人工智能的发展,人们对使用ChatGPT [2]等生成式人工智能工具来创建测验问题越来越感兴趣。一些大学为教师提供了示例提示,以使用ChatGPT [1,3]创建低风险评估问题。这一运动增加了我们获得大型问题池的可能性,但我们如何知道生成的问题是否是高质量的呢?除了专家和学生同伴的面部评估[29,42,50],心理测量学方法仍然是评估问题项目质量的主流方法。常见的心理测量方法通过测试中问题项目的内部一致性来评估测试的可靠性,例如,使用Rasch模型[54],项目反应理论(IRT)模型[20],或Cronbach’s alpha [11,47]。一个独特的挑战是,这种模型需要大量的响应数据来有效地剔除低质量(不一致)的问题项目,这使得心理测量方法在大多数大学课堂上使用起来既昂贵又不切实际。虽然教师可能能够在学期之间应用心理测量方法,但大多数教师在第一次布置问题时无法获得学生的回答数据。
我们提出了一个模块化的提示架构生成学生,其中我们利用大型语言模型(LLM)来模拟学生档案。在本文中,我们证明了我们可以让生成性学生回答多项选择问题,并使用这些回答来识别不可靠的问题项。prompt架构的设计基于知识学习指导框架[25],该框架使用知识组件(KC)来定义学生应该学习的元素。在生成性学生中,我们通过学生掌握的知识来模拟他们的个人资料。特别是,对于每一个给定的知识,学生可能已经掌握了它,对它感到困惑,或者没有表现出对它的理解。学生档案本质上是他们已经掌握的、困惑的或没有表现出理解的知识列表的函数。我们建议生成学生作为一种方法,不需要学生的历史表现数据。相反,我们依靠讲师来提供技能掌握所需的知识组件和他们预期的常见误解。这使得生成性学生潜在地更适用于没有大量历史数据的领域。生成式学生可以在几秒钟内创建,并针对一组给定的问题生成大量的回答数据。
我们的目标是解决以下研究问题:1)是否有可能使用LLMs成功地模拟学生档案并生成可信的问题答案?2)生成性学生的回答与真实性学生的回答相比如何?我们在教学和学习启发式评估(一种可用性检查方法)的背景下研究这些问题。我们选择启发式评估作为主题领域的原因有两个:1)我们已经收集了一个真实的学生响应数据集,其中包含关于该主题的20个多项选择问题(mcq ),这使得能够在生成性学生和真实学生之间进行比较。2)启发式评估的主题具有明确定义的知识组件(KC)。特别是,学习者需要掌握10个尼尔森的启发式规则,并对照一个设计进行检查。我们可以方便地将10种启发式算法中的每一种表示为KC。
使用prompt架构,我们在10 KCs上创建了45个具有不同掌握水平的生成性学生,并让他们回答了20个mcq。对MCQ的每个响应都是对GPT-4的API调用。LLM的响应包含答案和选择答案的理由。我们首先对LLMs的回答进行了定性分析,表明生成性学生产生了符合他们概况的逻辑和可信的回答。然后,我们比较了45名生成性学生和100名真正的大学生对同样一套20个mcq的反应。为了研究残酷的力量模拟方法的表现,我们增加了第三个条件,我们用随机数生成法模拟了45名学生。每个随机抽取的学生有70%的机会答对每道题。真实学生、生成性学生和随机学生之间的比较表明,真实学生和生成性学生的回答具有很高的一致性(r=0.72)。
然而,真实学生和随机学生的答案并不相关(r=-0.16)。此外,我们看到生成性学生和真实学生识别的简单和困难问题有合理的重叠,这表明了使用生成性学生来标记需要修改的问题的潜力。当LLM本身具有完善的内容知识时,这项研究产生了关于创建具有特定知识缺陷的LLM代理的见解。具体来说,我们要求LLM代理扮演老师的角色,并预测学生对某个问题的答案。这是我们所知的第一项研究,它显示了利用LLM模拟的学生档案来帮助评估多项选择问题项的有希望的结果,而不需要学生的历史表现数据。这为使用生成性学生来支持问题的快速原型和迭代开辟了途径。我们讨论了这种方法的潜在风险和引导过程的指导者(专家)输入的必要性。
相关工作
用于教育目的的自动问题生成长期以来,Learning@Scale和AI一直对教育社区中的问题生成技术进行研究。其中一项工作使用众包技术[42]。例如,UpGrade基于以前的学生解决方案创建问题[47],QMAps鼓励学生相互生成问题[57]。另一项工作是为问题创建开发端到端的NLP模型,这些模型擅长创建事实问题[13,28],而不能生成针对更高Bloom目标的问题[7]。关于多项选择问题(MCQ)生成,现有方法使用命名实体识别和主题建模来识别显著句子并提取问题选项的关键词[30,31]。最近的工作也探索了MCQ创作的人类协作方法,其中教师为选项选择文本输入[29]。现有的人工智能辅助问题生成系统面临一个共同的挑战,即如何评价生成的问题项的质量。在这项工作中,我们探索了利用LLM来模拟学生反应并使用它们来评估自动生成的问题项的可行性。
评估问题的度量和方法之