利用自然语言处理评估新创建问题的框架
在教育领域,准确评估学生的知识水平和问题的难度至关重要。传统的评估方法在处理新创建的问题时存在一定的局限性,而自然语言处理技术为解决这一问题提供了新的途径。本文将介绍一种用于评估新创建选择题难度和区分度的框架,并探讨其在实际应用中的效果。
1. 背景与动机
知识追踪(KT)是一种建模学生技能水平及其随时间演变的方法,可用于改善学习体验,如定制学习路径、预测学生辍学等。常见的知识追踪方法包括逻辑模型和神经网络。逻辑模型如项目反应理论(IRT)能够估计学生和问题的潜在特征,用于预测学生的未来答案。然而,问题的潜在特征(如难度和区分度)需要准确估计,否则会影响学生评估和系统的整体效果。
传统上,问题的潜在特征估计方法有两种:人工标注和预测试。人工标注具有主观性,不确定性和不一致性较高;预测试虽然能得到可靠的校准结果,但在使用新问题进行评分之前会引入较长的延迟。
近年来,一些研究尝试通过从问题文本中提取特征来估计问题的特征,以克服新问题校准的难题。但大多数研究仅关注问题的错误率或正确率,这只是对实际难度的近似估计,没有考虑不同学生的技能水平。
2. 相关工作
2.1 学生评估
知识追踪(KT)由Atkinson开创,常见的方法包括逻辑模型(如IRT、Elo评级系统)和神经网络。深度知识追踪(DKT)使用神经网络进行知识追踪,在预测未来考试结果方面被认为优于逻辑模型,但并非所有研究都认同这一观点。此外,DKT的预测结果难以提供学生技能水平和问题难度的明确数值估计。因此,当需要可解释的潜在特征时,逻辑模型通常是首选。