Exploring the Capabilities of Prompted Large Language Models in Educational and Assessment Applicati

题目

探索提示式大型语言模型在教育和评估应用中的能力

在这里插入图片描述

论文地址:https://arxiv.org/abs/2405.11579

摘要

    在生成式人工智能 (AI) 时代,大型语言模型 (LLM) 的融合为现代教育领域的创新提供了前所未有的机会。我们开始在教育和评估应用的背景下探索提示式 LLM,以发掘其潜力。通过一系列精心设计的研究问题,我们调查了基于提示的技术在从学校级教科书中生成开放式问题的有效性,评估了它们在从本科级技术教科书中生成开放式问题的效率,并探索了采用思路链启发的多阶段提示方法生成与语言无关的多项选择题 (MCQ) 的可行性。此外,我们还评估了提示式 LLM 在语言学习方面的能力,以资源匮乏的印度语言孟加拉语为例,解释孟加拉语语法错误。我们还评估了提示式 LLM 评估人力资源 (HR) 口头面试记录的潜力。通过将 LLM 的能力与人类专家在各个教育任务和领域的能力进行对比,我们的目标是阐明 LLM 在重塑教育实践方面的潜力和局限性。

    在当今技术飞速发展的时代,生成式人工智能模型(尤其是 LLM)的整合代表了教育实践和评估方法的关键转变。这些由生成式人工智能驱动的 LLM 对自然语言有着深刻的理解,拥有强大的计算能力,在学习促进和学生评估方面都具有巨大的变革潜力。我们的研究着手彻底探索 LLM 在各种教育和评估环境中的使用情况,重点是阐明其功效并确定有待改进的领域。我们的目标是解决关键的研究问题,努力发掘 LLM 的多方面潜力,同时承认其整合中固有的复杂性和挑战。

    我们的调查强调使用提示方法,旨在通过提供额外信息(称为“提示”)来指导其生成过程,从而增强 LLM 在后续任务中的能力。最近,提示的使用在不同的自然语言生成任务中引起了广泛关注,例如摘要、机器翻译等。通过严格的检查和分析,我们的目标是为围绕生成式 AI 模型在教育中的整合的持续讨论做出有意义的贡献,提供细致入微的见解,为未来的研究工作和教育实践提供参考。

相关工作

    本研究探索了各种基于提示的问题生成 (QG) 策略。整理 KHANQ 数据集,将每个数据样本分为 <上下文、提示、问题> 三元组,并使用 BERT 生成、BART、GPT2和 UniLM 等 LLM 研究基于提示的 QG。KHANQ 中使用的提示是根据学习者的背景知识和对主题的理解量身定制的。尽管 KHANQ 数据集具有相当大的价值,但作者迄今尚未将其公开。利用基于提示的微调来制定多跳问题。该方法包括一系列任务,从 QG 开始,然后过渡到问答 (QA),该过程以迭代方式执行以改进 QG 过程。T5 用于训练 QG 和 QA 模型。此外,还实施了问题释义以增强该方法的稳健性。最后,采用基于提示的微调来生成高质量的问题。

    他们通过选择与准确答案相关的相关单词来生成提示,并在 HotpotQA、SQuAD和 Quora Question Pairs 数据集上评估了他们的模型。利用 LLM 的自动化 QG 的最新研究 使用了单跳 QA 数据集(例如 SQuAD)和多跳 QA 数据集(例如 HotpotQA)。这些 QA 数据集由 <上下文、问题、答案> 三元组组成,其中 Context 表示上下文文档,Question 是人类提出的查询,Answer 是其相关响应。当前的 QG 方法也受益于 QA

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

三月七꧁ ꧂

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值