题目
现代LLM在为印度高中社会科学课程的不同布鲁姆技能水平生成相关且高质量的问题方面表现如何?
论文地址:https://aclanthology.org/2024.bea-1.1.pdf
项目地址:https://github.com/nicyscaria/AEQG-SocialSciences-BloomsSkills
摘要
创建具有教学效果的问题对教师来说是一项挑战,需要投入大量时间和精心规划,尤其是在资源受限的经济体中。例如,在印度,高中社会科学评估的特点是死记硬背,不考虑高阶技能水平。使用大型语言模型 (LLM) 的自动教育问题生成 (AEQG) 有可能帮助教师大规模开发评估。然而,评估这些问题的质量和相关性很重要。在本研究中,我们检查了不同 LLM(Falcon 40B、Llama2 70B、Palm 2、GPT 3.5 和 GPT 4)生成不同认知水平的相关高质量问题的能力,如布鲁姆分类法所定义。我们用相同的指令和不同的上下文提示每个模型,以在印度一个州教育委员会的社会科学课程中生成 510 个问题。两位人类专家使用九项评分标准来评估语言正确性、教学相关性和质量以及对布鲁姆技能水平的遵守情况。我们的结果表明,LLM 生成的 91.56% 的问题都是相关的且质量很高。这表明 LLM 可以在不同的认知水平上生成相关且高质量的问题,这使得它们对于创建用于在资源受限的经济体中扩大教育规模的评估非常有用。
近年来,大型语言模型 (LLM) 取得了重大进展。它们在来自互联网的大量文本数据集上进行训练,并用于各种自然语言处理任务。OpenAI 的 ChatGPT 和谷歌的 Bard 的推出使 LLM 更容易被更广泛的受众所接受,使没有自然语言处理 (NLP) 专业知识的个人能够利用它们来满足日常需求。这些模型的特点是规模庞大,能够理解和生成复杂的文本。通过指令微调,语言模型被校准以遵守用户指令。与传统语言模型相比,这些 LLM 具有零样本能力,允许它们通过简单地解释给定的指令来处理各种任务,而无需特定训练。LLM 的教育应用多种多样且前景广阔,涵盖个性化内容生成、评估和反馈。
根据世界银行的数据,印度高中的师生比为 1:291,而中等收入国家和高收入国家的平均师生比分别为 1:18 和 1:13。这增加了教师的工作量,教学和评估的质量下降。在印度,历史等科目的教学和评估侧重于死记硬背,很少强调高阶思维技能或探究。基于探究的学习和高质量的问题可以促进学习者的深度参与和现实世界的联系。与布卢姆分类水平相一致的评估(如表 1 所示)可帮助教育工作者识别学习差距并个性化教学,但需要花费大量时间和精力来创建。自动教育问题生成系统 (AEQG) 有可能减轻这种负担,使教师能够个性化教学并提高学生的参与度。本研究调查了开源和专有 LLM 生成具有不同认知技能的高质量、上下文对齐问题以进行有效评估的能力。
虽然 LLM 能够自然语言语言生成 (NLG) 任务,其输出在特定语境下可能会出现错误和不一致。这些模型也容易产生幻觉。这些问题直接影响生成的