Dr.Academy: A Benchmark for Evaluating Questioning Capability in Education for Large Language Models

题目

Dr.Academy:评估大型语言模型教育提问能力的基准

在这里插入图片描述

论文地址:https://aclanthology.org/2024.acl-long.173/

摘要

    教师在传授知识和指导学习者方面发挥着重要作用,而大型语言模型 (LLM) 作为潜在教育者的作用正成为一个重要的研究领域。认识到 LLM 生成教育内容的能力可以促进自动化和个性化学习的发展。虽然 LLM 的理解和解决问题的能力已经过测试,但它们在教学方面的能力仍未得到充分开发。在教学中,提问是一项关键技能,它引导学生分析、评估和综合核心概念和原则。因此,我们的研究引入了一个基准,通过评估 LLM 生成的教育问题来评估 LLM 教师在教育中的提问能力,利用 Anderson 和 Krathwohl 的一般、单一学科和跨学科领域的分类法。我们将重点从 LLM 作为学习者转移到 LLM 作为教育者,通过引导他们生成问题来评估他们的教学能力。我们应用四个指标,包括相关性、覆盖率、代表性和一致性,来评估 LLM 成果的教育质量。我们的结果表明,GPT-4 在教授通识、人文和科学课程方面表现出巨大潜力;Claude2 似乎更适合担任跨学科教师。此外,自动评分与人类观点一致。

简介

    大型语言模型 (LLM) 在各种自然语言处理 (NLP) 任务中表现出色,包括问答 (Saad-Falcon et al, 2023; Chen et al, 2024f,e,d)、信息检索 (Chen et al, 2022; Liu et al, 2023b)、推理 (Kojima et al, 2022; Chen et al, 2023c) 和生成 (Chung et al,2023; Chen et al, 2023e, 2024b) 等。除了这些一般的NLP应用,LLM还广泛应用于教育等其他领域。在教育领域,LLM现在可以替代教师,帮助自动化教学或辅助学习应用,减轻人类教师的压力。此外,LLM可以根据学生的知识状态、学习方式和兴趣推荐合适的选修课,自动生成相应难度的练习题,并识别学生的不足之处,以便有针对性地改进。

    然而,提问能力是教育领域的一个重要方面。当LLM承担起教师的角色时,它们能否像人类教育者一样提出高质量的问题?因此,评估教育中什么是高质量的问题变得十分必要。根据 Anderson 和 Krathwohl 的教育分类法(Anderson and Krathwohl,2001;Elkins et al,2023),我们认为教育领域的高质量提问必须满足以下特征:

  1. 在六个维度上达到较高的水平;问题必须涵盖记忆、理解、应用、分析、评价、创造等领域;
  2. 与所给语境相关;
  3. 全面涵盖语境内容;
  4. 也体现该语境的重要知识。

    我们认为,符合这些特征的问题可以有效考核学生的知识水平,能够提出此类问题的LLM可以胜任人类教育者的角色。第一个特征是LLM作为人类教师的最基本要求,而以下三个特征则是衡量LLM作为教师的优秀程度的指标。

    评估和提升LLM在教育领域生成高质量标准问题的能力需要一个基准。然而,先前的研究主要从学生的角度看待LLM,重点关注阅读理解(Bai et al, 2023; Tran and Kretchmar, 2023; Chen et al, 2023a; Cheng et al, 2023; Izacard and Grave, 2020; Kawabata and Sugawara, 2023; Zhou et al, 2023b,a)和考试评估(Zhang et al, 2023b; Huang et al, 2023; Zhong et al, 2023; Li et al, 2023; Wang et al, 2023; Zeng, 2023; Wei et al, 2023)等任务。但这些任务侧重于借助情境被动回答问题或进行推理,将LLM视为学生,以回答问题的方式评估其能力,而LLM通过生成教育问题进行提问的能力研究不足。目前教育相关的研究还不足以确定LLM作为教师的提问能力,也没有一个基准研究LLM作为教师的整体教学能力。虽然一些角色扮演任务(Shao等,2023)模拟了专业的对话,但并不能真正考核LLM的教学能力。因此,如果我们希望LLM能够有效地协助教学,我们需要评估和提升他们的教学能力,因为拥有知识和指导他人学习是不同的技能。因此,本文以专业教育理论为指导,制定了一个评估LLM是否在教育领域生成高质量问题的基准。与一般提问不同,如图 1(a)所示,我们的基准要求生成的问题不仅要流畅、易读,还要满足前面提出的基本特征(即第一个特征),如图 1(b)所示。

在这里插入图片描述
图 1:一般问题和教育问题之间的比较。

    具体来说,我们借鉴 Anderson 和 Krathwohl 的教育分类法(Anderson and Krathwohl, 2001),提示 LLM 针对每个情境生成六个层次的问题。我们从通用、单学科和跨学科三个领域中选择任务,以更全面地评估 LLM 作为各领域教师的优势。基于前面提出的四个特点,我们还设计了四个评估指标:一致性、相关性、覆盖率和代表性,以评估 LLM 在教育领域提出的问题的价值,从而通过评估其生成的教育问题来全面评估 LLM 作为教育教师的提问能力。我们的实验表明,通过评估他们生成的教育问题,GPT-4、Claude2 和 GPT-3.5 等 LLM 表现出了作为教育教师的良好跨领域提问能力。

    综上所述,我们的贡献有三方面:

  • 我们引入了通过评估LLMs生成的教育问题来评估其教师教育提问能力的问题,建立了一个基于教育理论的框架,包括六个认知层次和三个不同领域的任务。
  • 我们建立了四个评估指标,通过评估LLMs生成的教育问题来评估其教师教育提问能力。
  • 我们对11名LLMs进行了实验评估,为每个LLMs的教师提问能力提供了量化标准和学科取向。

数据集和任务设置

    我们提出了一个名为Dr.Academy的基准,它包含三个领域的任务。前两个任务要求法学硕士生分别根据Anderson和Krathwohl的教育分类法(Anderson and Krathwohl, 2001)的六个层次,包括记忆、理解、应用、分析、评估和创造,在一般领域和单一学科领域生成问题。第三个任务要求法学硕士生生成跨多个学科的问题。 Dr.Academy 的概览如图 2 所示。

    上下文构建 最初,我们从一般领域收集 10,000 个上下文,并专门为单一学科领域生成另外 10,000 个上下文。 在一般领域,上下文来源于 SQuAD 数据集(Rajpurkar 等人,2016 年),这是一个从维基百科文章中抽取的阅读理解数据集,并被用作 LLM 生成问题的基础。

    在单一学科领域,我们使用 GPT4 1 为 MMLU 数据集(Hendrycks 等人,2020 年)中的每个多项选择题生成相应的上下文,该数据集涵盖了广泛的主题。这些上下文包括与问题和所有候选选项相关的基本信息。生成上下文的提示如表 1 所示。我们还对 MMLU 问题生成的上下文进行人工评估。在此过程中,我们聘请了三名来自不同学科的研究生进行评估。对于每个学科,我们随机选择1%的问题进行人工评估。如果这些条目的人工评估分数未达到4分(满分为1-5分&

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

三月七꧁ ꧂

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值