Towards AI-Assisted Multiple Choice Question Generation and Quality Evaluation at Scale: Aligning wi

题目

面向人工智能辅助的大规模多项选择题生成和质量评估:与布鲁姆分类法保持一致

在这里插入图片描述

论文地址:https://arxiv.org/abs/2304.10513

摘要

    在教育评估中,多项选择题 (MCQ) 因其评分和提供反馈的效率而被频繁使用。然而,手动生成 MCQ 遇到了挑战。依赖有限的问题集可能会导致项目重复,这可能会损害评估的可靠性和评估程序的安全性,尤其是在高风险评估中。本研究探索了一种由人工智能驱动的方法来创建和评估入门化学和生物学中的 MCQ。该方法包括通过 GPT-3.5 的零样本提示生成与布鲁姆分类法对齐的问题,使用 RoBERTa 验证问题与布鲁姆分类法的对齐——一种基于 transformer 架构的语言模型,采用自注意力机制来处理输入序列并生成给定句子中单个单词的上下文感知表示——使用项目写作缺陷 (IWF) 评估问题质量——在创建测试项目或问题时可能出现的问题——并使用主题专家验证问题。我们的研究表明,GPT-3.5 能够生成高阶思考问题,尤其是在“评估”层面。我们观察到 GPT 生成的问题与人类评估的复杂性一致,尽管偶尔存在差异。问题质量评估揭示了人类和机器评估之间的差异,与布鲁姆分类法水平呈反比。这些发现揭示了自动化问题生成和评估,展示了人工智能驱动的教育评估方法的进步潜力。

简介

    多项选择题 (MCQ) 已成为教育领域一种有用的评估工具。它们的有效性在于其简单高效的评分能力,使教育工作者能够高效地评估许多答案。此外,MCQ 有助于即时反馈,这对于提高学习成果非常有价值,因为它使学生能够找出薄弱环节并及时改进。精心设计的 MCQ 具有评估不同层次布鲁姆分类学知识的卓越能力,该框架对学生用于学习的不同层次的认知技能和能力进行了分类,从而成为支持和提高学习成果的多功能工具。通过将问题与布鲁姆分类学的不同层次相结合,教师可以控制问题的认知深度,满足学生的不同学习需求并鼓励学习者进行批判性思维。

    传统的生成和评估问题的方法通常需要大量的体力劳动,通常需要大量的人力投入和专业知识。此外,依赖有限的问题库可能会导致题目重复,从而可能破坏评估的可靠性和评估过程的安全性。这种限制带来了值得注意的困难,特别是在高风险评估场景中。虽然自动生成问题(特别是通过使用大型语言模型 (LLM))为简化问题创建过程提供了重要机会,但持续生成符合布鲁姆分类法的高质量 MCQ 的潜力仍是一个尚未被充分探索的领域。利用 LLM 的强大功能来精确定制 MCQ,以解决布鲁姆分类法定义的不同认知水平,为教育创新提供了一条有希望的途径。然而,它也带来了一系列独特的挑战和复杂性,例如保持问题质量、与学习目标保持一致、解决偏见和确保可扩展性。

    在这项研究中,我们研究了在入门化学和生物学领域创建和评估 MCQ 的 AI 驱动过程。这个过程包括三个部分。首先,我们利用零样本提示生成与布鲁姆分类法相一致的问题,利用 GPT-3.5,重点关注学科内的上下文相关性。其次,我们使用自然语言处理 (NLP) 技术来评估这些问题的质量,评估它们与布鲁姆分类法的一致性以及对项目写作缺陷 (IWF)标准、指南和教育评估领域用于评估测试项目或问题质量的标准的遵守情况。第三,一位具有学科专业知识和教学见解的化学老师审查了其中的一部分问题。这一验证程序旨在弥合自动评估与人类标准之间的差距,确保生成的问题与各个分类级别相一致,并可在课堂上使用。

    本研究旨在解决两个研究问题。RQ1 调查了

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

三月七꧁ ꧂

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值