Analysis of LLMs for educational question classification and generation

题目

面向教育问题分类和生成的线性模型分析

在这里插入图片描述

论文地址:https://www.sciencedirect.com/science/article/pii/S2666920X24001012

摘要

    像ChatGPT这样的大型语言模型(LLM)在生成教育内容(包括问题)方面显示出了前景。本研究评估了LLMs在分类和生成教育类问题方面的有效性。我们使用一个由4,959个用户生成的问题组成的数据集来评估ChatGPT的性能,这些问题分为10个类别,采用了各种提示技术,并用投票方法汇总结果以增强鲁棒性。此外,我们评估了ChatGPT在从五本在线教科书中的100个阅读部分中生成特定类型问题的准确性,这些阅读部分由人工评估人员进行人工审查。我们还根据学习目标生成问题,并将它们的质量与人类专家精心制作的问题进行比较,并由专家和众包参与者进行评估。我们的研究发现,ChatGPT在零镜头分类中实现了0.57的宏观平均F1值,当与使用嵌入的随机森林分类器结合时,提高到0.70。最有效的提示技巧是添加定义的零镜头,而少镜头和少镜头+思维链方法表现不佳。投票方法增强了分类的鲁棒性。在生成特定类型的问题时,ChatGPT的准确性低于预期。然而,ChatGPT生成的问题和人工生成的问题之间的质量差异在统计上并不显著,这表明ChatGPT在教育内容创作方面的潜力。这项研究强调了法学硕士在教育实践中的变革潜力。通过有效地分类和生成高质量的教育问题,LLMs可以减少教育工作者的工作量,并实现个性化的学习体验。

引言

    问题在教育领域占据着核心和不可或缺的地位,是促进理解和知识获取的基本工具(Chin & Osborne,2008)。这些问题涵盖了一系列的难度和有用性,其中一些比另一些更适合学习。提出有价值问题的能力不仅需要语言能力,还需要对教学目标的深刻理解(Nappi,2017)。这个过程需要大量的脑力劳动和对学习过程的深刻理解。为了应对与问题制定相关联的复杂性,不仅能够分析问题而且能够自动生成问题的系统的主张在教育领域中作为有价值的资源出现。这种系统有可能通过促进创建结构良好且在教学上有效的问题来减轻教育者和学习者的负担。历史上,自动问题生成(AQG)严重依赖于基于规则的方法。这些方法使用手工语言*对应的作者。

    规则和资源,如词性(POS)标签和语法标签,将陈述句转换成问题(Haris & Omar,2012;海尔曼和史密斯,2010年)。虽然这些方法可以生成语法正确的问题,但它们需要大量的人工努力和语言专业知识,这限制了它们在不同教育内容中的可扩展性和适应性。基于神经的方法的出现标志着AQG的重大转变(Zulqarnain等人,2021;杜等,2017)。这些方法利用大型数据集和先进的机器学习算法来识别模式,并比基于规则的方法更有效地生成问题。尽管取得了这些进步,神经模型仍然面临着一些挑战。他们经常努力从长阅读文章和抽象答案中产生问题。此外,许多神经模型主要针对低级问题进行训练,这限制了它们创建更复杂和认知要求更高的问题的能力(Al Faraby等人,2023)。

    在自然语言处理(NLP)的大背景下,LLMs的出现是基于神经网络的方法引入了一种范式转变。这些模型的特点是对大量文本语料进行大量的预处理,在各种自然语言处理应用中得到了广泛的关注和利用。一些众所周知的实例包括生成预训练变压器(GPT)(布朗等人,2020年),大型语言模型元人工智能(LLaMA)(图夫龙等人,2023年),以及路径语言模型(PaLM)(乔德里等人,2022年)。选择LLM进行这项研究的理由在于,它们能够在包括长上下文在内的各种上下文中理解和生成类似人类的文本,这使它们成为教育应用的理想候选对象。鉴于它们的普遍性和多功能性,研究它们在用于教育问题时的表现变得至关重要。这项研究在今天的NLP研究中意义重大,因为它旨在了解这些模型如何在教育中受益。

    尽管取得了这些进步,但目前的研究仍存在一些具体的差距。虽然逻辑思维模式可以产生在句法和语义上更好的问题,但是这些问题的质量和教学效果还没有得到彻底的评估。此外,LLM提出与教育目标相一致的问题并激发批判性思维的能力仍未得到充分开发。问题分类是增强教育工具的另一个重要方面。有效的分类可以通过根据各种类型对问题进行分类来帮助组织和评估教育内容,例如Bloom的分类法(Bloom,1956年)和Graesser的问题类型学(Graesser & Person,1994年)。这种能力不仅对于提高问题的多样性和可用性至关重要,而且对于确保问题生成后的精确性也至关重要。

    自动问题分类和AQG可以显著改善教学和学习环境。这些系统可以无缝集成到网站或阅读软件中,通过根据当前页面即时生成问题,将阅读体验从被动转变为互动,从而促使读者积极参与材料(Syed等人,2020年)。此外,该系统允许定制适合个人学习需求的问题,使学习者能够通过接收与其熟练程度匹配的问题来关注需要改进的领域(Srivastava & Goodman,2021)。此外,设计良好的自动化问题可以通过鼓励学生分析信息并将知识应用到现实世界的场景中来促进批判性思维。除了回答自动化问题之外,学生还可以通过观察提供的例子来学习自己制定关键问题,从而提高他们提出更有见地和有效的问题的能力(Hofstein等人,2005)。

    鉴于这些因素,本研究旨在对大型语言模型在分类和生成教育问题方面的表现进行全面评估。通过实证评估和分析,本研究旨在了解这些模型在教育提问领域的优势和局限性。最终,目标是提供如何在教育环境中有效使用这些模型的信息和指导。具体来说,本文提出的研究问题如下:

RQ1:逻辑思维模式在教育类问题分类中的效果如何?了解LLM在教育环境中的分类性能对于评估它们在分类和组织教育内容中的适用性和可靠性是必不可少的。这些知识对于开发能够自动对问题进行分类的系统以及潜在地增强自动问题生成系统是至关重要的。

RQ2:LLM在生成特定类型的问题时有多准确?评估LLM在生成特定类型的问题时的准确性有助于评估它们生成相关和有针对性的教育内容的能力。这对于确保生成的问题对于不同的教育场景是有用的和合适的,增强了学习体验。

RQ3:与人类专家提出的问题相比,LLMs提出的问题质量如何?将LLM生成的问题与人类专家创建的问题进行比较,可以深入了解LLM在制作高质量教育内容方面的有效性。这有助于确定LLM的优势或需要改进的领域,指导未来在教育环境中的增强和应用。

图一 问题分类任务的研究设计
在这里插入图片描述

相关工作

    本文中的相关工作涵盖了自动问题生成、教育问题分类以及大型语言模型(LLM)在教育环境中的应用的各个方面。这些相互关联的主题共同通报了研究的当前状态,并突出了在利用人工智能进行教育方面的进步和挑战。自动问题生成(AQG)自动问题生成(AQG)是从输入上下文中生成句法流畅且语义相关的问题的过程。历史上,问题生成的研究主要依赖于基于规则的方法。这些方法利用手写规则、语言特征(如词性(POS)标签、实体和语法标签)和语言资源(如WordNet),这些都需要对语言学有深入的理解(Ali et al,2010;米特科夫和勒安,2003年;海尔曼&史密斯,2010年;Mostow和Chen,2009年)。基于规则的AQG方法通常侧重于使用句法模式和语义约束将陈述句转换成问句。例如,Heilman和Smith (2010)开发了一个使用手工规则从陈述句中生成问题的系统,强调了句法转换规则和词汇资源的重要性。虽然这些方法在某种程度上是有效的,但需要大量的人工努力和专业知识,这限制了它们对不同教育内容的可扩展性和适应性。

    基于神经的方法的出现标志着AQG的重大转变。这些方法利用大型数据集和机器学习算法来更有效地学习模式和生成问题。杜等人(2017)为引入了一个端到端、序列对序列(seq2seq)系统,该系统利用了具有注意机制的递归神经网络(RNNs)。在SQuAD数据集上进行训练(Rajpurkar等人,2016年),该模型显示了对基于规则的系统的显著改进,与Heilman和Smith (2010年)获得的11.18分相比,获得了12.28分的BLEU4分。然而,基于RNN的seq2seq模型面临着与计算成本和处理长距离依赖性相关的挑战。转换器的引入和对大量文本数据集的预训练解决了这些问题。例如,基于BERT的递归模型(Chan & Fan,2019)在BLEU4评分方面取得了显著提高,达到22.17分。此外,基于transformer的文本生成模型的专门预训练和微调框架获得了更高的BLEU4分数26.95 (Xiao等人,2020)。这些进步利用先进的预训练和微调技术来增强自然语言生成过程,从而产生在语法和语义上都更优越的问题。

    尽管取得了这些进步,评估生成问题的质量仍然具有挑战性。传统的自动指标,如BLEU和ROUGE,往往无法捕捉问题质量的细微差别,需要人工评估进行更全面的评估(Mathur等人,2020;Sultan等人,2020)。由于自动化度量的局限性,许多研究还包括人工评估,侧重于自然性(流利性、相关性和可回答性)、难度等标准(Du等人,2017;Chan & Fan,2019;毕等,2021)和乐于助人(程等,2021;Sekuli等人,2021年)。然而,缺乏标准化的评估方法使得跨研究的结果比较困难。评估通常涉及专家、众包参与者或作者,他们根据特定标准评估问题并分配分数。一些研究还比较了人类提出的问题和人工智能提出的问题之间的偏好。出于教育目的,Horbach等人(2020)提出了一个全面的人类评估方案,该方案使用九个标准评估生成的问题的质量,考虑它们对教育背景的相关性、复杂性和重要性。这种分层评估方法突出了领域专家提出的问题的价值,确保了它们在教育环境中的教学效果。

    教育问题分类以改进教育工具为主题,问题分类在组织和评估教育内容方面起着至关重要的作用。费等(2003)对教育问题分类的基础研究之一是将多项选择题分为三个难度等级:易、中、难。他们利用神经网络以及语言特征,如术语频率和问答长度,取得了令人印象深刻的78%的F1分数。与此同时,其他研究人员专注于根据布鲁姆的分类法对问题进行分类。例如,Haris和Omar (2012)在135个问题的小数据集上使用了基于规则的分类器,实现了77%的f 1分数。类似地,Yahya和Osman (2011)在六个类别的190个问题上采用了TF-IDF特征和SVM分类器,达到了87.4%的准确率ÿ

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

三月七꧁ ꧂

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值