新生辍学风险预测:数据驱动的解决方案
1. 研究背景与目标
在教育领域,新生辍学是一个备受关注的问题。采用数据驱动的方法对新生辍学进行早期预测具有重要意义。其目标是通过自动化学习过程,开发出能够捕捉辍学发生特定背景信息的模型。
为了构建这个模型,遵循了以下三个设计原则:
- 早期风险评估 :在学生开始课程之前或第一年期间,评估其放弃学业的风险。统计显示,这段时间是辍学的关键时期。针对一年级学生,可用于训练预测模型的数据主要包括个人信息、高中学习记录(如性别、年龄、高中教育情况、最终成绩)以及第一年最初几个月获得的学分。
- 多模型研究 :不局限于特定的预测模型,而是对多种机器学习技术进行深入研究,以建立基线并评估问题的挑战性。
- 真实数据训练 :使用从某所主要大学特定学年中约 15,000 名学生收集的真实数据进行训练和测试。
2. 相关工作
近年来,许多研究采用机器学习技术来预测学生的学业表现。在大学教育层面,不同的研究基于不同的数据集设计了机器学习模型,虽然使用的特征和假设不同,但都进行了类似的分析。例如,有的研究使用包含学生来源信息的平衡数据集训练不同的机器学习模型,并报告了准确率、真阳性率和 AUC - ROC 等指标;还有的研究使用包含家庭状况和生活条件等更丰富特征的数据集,采用 Fuzzy - ARTMAP 神经网络取得了有竞争力的性能。
关于大学辍学现象,也有不同的研究方法。有的利用智能教室中的网络摄像头、眼动追踪器等设备收集数据,进行学生情绪分析和检测,进而预测辍学情况。此外,