Generating Better Items for Cognitive Assessments Using Large Language Models

题目

使用大型语言模型为认知评估生成更好的项目

在这里插入图片描述

论文地址:https://aclanthology.org/2023.bea-1.34/
项目地址:https://github.com/Advancing-Machine-Human-ReasoningLab/gpt3-item-generation/tree/main

摘要

    编写高质量的测试问题(项目)对于构建教育措施至关重要,但传统上也是一个耗时的过程。缓解这一问题的一个有希望的途径是自动生成项目,即使用人工智能 (AI) 的方法在最少的人为干预下生成新项目。研究人员已经探索使用大型语言模型 (LLM) 来生成具有与人工编写项目相同的心理测量属性的新项目。但是,即使现有项目的有效性证据较差,LLM 能否生成具有改进的心理测量属性的项目?我们使用来自自然语言推理 (NLI) 数据集的项目对此进行了调查。我们开发了一种新颖的提示策略,该策略基于选择具有最佳和最差属性的项目以用于提示,并使用 GPT-3 生成新的 NLI 项目。我们发现 GPT-3 项目在许多情况下表现出改进的心理测量属性,同时还具有良好的内容、收敛和判别有效性证据。总的来说,我们的结果证明了使用 LLM 简化项目开发过程的潜力,并表明谨慎使用提示可以迭代改进项目质量。

    人工智能对教育和心理测量的影响越来越深远。基于人工智能和机器学习的技术,包括教育数据挖掘、智能辅导系统、深度项目反应理论和深度知识追踪等正在改变教育和心理测量,而且这种趋势似乎可能会持续下去。

    大型语言模型 (LLM) 的一个有前途的教育应用是自动生成测试项目 (AIG)。编写高质量的测试项目对于建立有效的教育评估至关重要,但传统上也是一个耗时的过程,因为项目必须由专家开发并经过多轮审查。大量研究者对使用 AIG 创建高质量试题感兴趣,这种试题只需极少干预,可以加快测试开发过程。先前的研究表明,LLM 可以生成至少具有表面效度(即,根据试题内容,它们看起来有效)的试题,适用于非认知和认知结构。对从此类模型生成的试题进行仔细的心理测量分析还表明,它们与人类书写的试题一样有效和可靠。

    尽管前景光明,但这项研究主要集中在为已经充分研究的结构生成试题,使用已知具有强大有效性证据的试题。假设一位教育工作者希望为新结构开发测试,而现有试题可能只经过了预测试。或者假设教育者希望在一个成熟的领域使用一种新型的项目(例如,使用新项目格式的代数推理测试)。无论哪种情况,这些项目的有效性证据都可能有限,并且需要花费大量时间修改项目以改善其心理测量属性,然后才能使用它们。

    在这项工作中,我们问:即使在现有项目只有有限有效性证据的情况下,LLM 是否可用于生成有效且可靠的项目?如果是这样,基于 LLM 的 AIG 可用于迭代改进项目的心理测量属性,探索底层构造空间,并阐明什么是好的项目。我们使用 GPT-3对此进行探索,并专注于生成测试自然语言推理 (NLI) 的项目。NLI 是一种重要的认知在 NLP 研究中构建的模型,据我们所知,该模型在人类参与者中仅进行了有限的心理测量分析。

    我们开发了一种新颖的提示策略,该策略使用项目的心理测量属性(使用先前的人类反应计算)来选择最具信息量的示例发送给模型,以最大限度地提高生成示例的质量。我们的主要贡献如下:

  1. 我们开发了一种新颖的提示策略,通过根据项目所具有的心理测量属性选择要作为上下文包含的项目来生成项目,主要关注项目区分。
  2. 使用 GPT-3,我们使用 GLUE 广泛覆盖诊断测试我们的方法,这是 NLP 研究中流行的认知任务。我们对生成的项目的心理测量属性进行了广泛的分析,发现在大多数情况下,来自 GPT-3 的项目比人类编写的项目显示出更强的有效性和可靠性证据。

相关工作

    自动化项目生成 几十年来,心理测量学家一直在探索如何实现项目生成的自动化。 早期的尝试集中在开发项目模型上,这些系统可以交换项目中的某些关键词,同时保持项目中其他部分不变。虽然项目模型在理论上是合理的,而且很有可能产生心理测量有效的项目,但开发它们需要大量的手动工作,因为项目词干和其他组件仍然必须手动编写。此外,项目模型在可生成内容的多样性方面受到限制。这些缺点促使最近的研究使用 LLM 作为项目生成器。von Davier是最早探索这一点的人之一,他使用循环神经网络生成人格评估的项目。 Transformer 的出现导致了 LLM 的创建,它可以生成更加连贯和语义准确的文本,从而进一步引起了人们对基于 LLM 的 AIG 的兴趣。Götz 等人使用 GPT-2生成了大量个性项目,并表明其中至少有一些项目通过了表面效度检查。

    Maertens 等人使用 LLM 生成的项目开发了一种错误信息敏感性测试。Hernandez 和 Nie开发了一个自动生成和验证测试项目的系统,使用自回归 LLM 进行生成,使用自动编码 LLM 进行验证。 Lee 等人广泛评估了 GPT-3 生成的人格项目的心理测量特性,包括内部结构分析、差异项目功能和可靠性。他们得出结论,机器生成的项目的有效性证据与人工编写的项目一样强,甚至更强。虽然许多工作都集中在非认知评估上,但其他人已经探索了基于 LLM 的 AIG 用于教育评估。值得注意的是,Chan 等人使用 BERTLLM 来生成语法阅读练习。Zou 等人和 Rathod 等人使用 transformer 生成判断题和阅读理解题。Attali 等人使用基于 transformer 的 LLM 为 Duolingo 英语测试生成题目。 Zu 等人结合使用微调和基于提示的学习来训练 GPT-2 以生成填空词汇项目的干扰项。

   

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

三月七꧁ ꧂

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值