题目
具有难度级别控制的自动教育问题生成
论文地址:https://link.springer.com/chapter/10.1007/978-3-031-36272-9_39
摘要
我们考虑自动生成各种难度的数学应用题 (MWP),以满足教师在相应教育阶段教学和测试学生的需求。现有方法无法生成高质量的问题,同时允许教师控制问题难度级别。在这项工作中,我们引入了一个可控的 MWP 生成管道,该管道从具有各种专家模型组件的能量语言模型中采样以实现目标属性。我们通过对方程式、词汇和主题施加约束,从数学和语言方面控制生成的 MWP 的难度。我们还使用其他控制属性,包括流畅度和与条件序列的距离,来管理语言质量和创造力。实验和评估结果表明,我们的方法在生成可解、格式良好且具有受控难度级别的多样化 MWP 方面有所改进。最后,我们征求了各种数学教育者的反馈,他们认可我们的系统对他们的 MWP 设计过程的有效性。他们认为我们的输出符合问题设计者的期望,表明在现实生活中的教育场景中使用此类问题生成器的可能性。我们的代码和数据可根据要求提供。
关键词:数学应用题生成·自动教育问题生成·可控文本生成
简介
数学应用题 (MWP) 是一种重要的教学工具,它通过现实世界的情况和故事向学生传授算术和情境推理技能 [11,18]。由于 MWP 广泛应用于教育 [9,17] 和学生不同学习阶段的公共标准化测试,这些不同难度级别的问题需求量很大。然而,MWP 通常由人类专家创建,手动构建和更新具有不同难度的题库成本高昂 [11]。这导致人们越来越关注自动生成具有可控难度的 MWP [8,20]。
先前基于模板的研究已经探索了在 MWP 生成中施加难度控制 [8,20]。然而,由于依赖固定模板和领域知识,它们的结果在质量和多样性方面受到限制。最近的研究 [21,24] 越来越依赖于通用的基于神经网络的文本生成模型。虽然这些模型产生的输出具有高语言质量和有效的数学关系,但它们对问题难度的控制有限;因此它们往往只输出简单的问题。此外,由于缺乏可控性,很难将新的用户约束纳入这些方法中,导致这些方法在教育领域的采用率很低。
在这项工作中,我们提出了一个 MWP 生成框架,允许生成具有预定难度级别的可解、格式良好和创新的问题。我们没有将“难度”视为黑匣子,而是遵循 [4,18] 从学习科学领域出发,将这个概念分解为数学和语言难度。我们允许对解方程施加约束来管理数学难度,并允许对主题和词汇施加约束来控制语言难度。
我们的系统采用混合搭配语言模型 (M&M LM) [16],该模型使用 Gibbs-Metropolis-Hastings 采样器 [6] 从能量 LM 中采样。我们的能量值由专家模型的分数组成,包括主题鉴别器、方程生成器、用于评估流畅度的大型预训练 Masked LM (MLM),以及用于测量与条件问题距离的 Hamming 距离和 BertScore [23]。与之前基于神经网络的方法相比,这种基于能量的模型可以轻松集成各种约束并修改现有约束。
我们使用自动和人工评估来评估结果的质量和难度可控性。与以前的方法相比,自动评估显示困惑度、连贯性和与条件问题的距离都有所改善。然后,我们请几位人工评估员评估生成问题的 5 个方面:格式正确性、可解性、创造性、主题匹配和难度匹配。评估结果表明,我们的系统在语言质量、可解性、创新性以及主题和难度的可控性方面都有所改进。我们通过对真实数学老师的用户研究进一步检验了系统的可用性。本研究中的老师认为,我们的结果与数据集中人类编写的结果几乎没有区别。我们发现这非常令人鼓舞,因为它使自动问题生成方法更接近于在真实教育环境中的部署。
相关工作
MWP 生成:早期对 MWP 生成的探索使用基于模板的方法 [8,17,20]。他们基于手工制作的模板的生成结果多样性有限,这可能导致死记硬背。Wang 等人 [20] 对方程复杂性和冗余量施加了难度控制。他们的结果范围有限,语言质量也有限。Khodeir 等人 [8] 探索了用修辞方案描述的问题的难度可控生成。