支持向量机在学生教育数据分类中的应用与优化
1. 研究背景与数据来源
在教育领域的研究中,为了更好地了解学生的学习情况和预测学生的学业表现,需要对相关数据进行分析。本科生的入学信息,包括平均绩点(GPA)和成绩等被用于生成研究所需的数据。
有研究利用机器学习算法和个人信息来识别在线学习的退学情况。例如,Lykourentzou 等人(2009)使用了三种机器学习算法和个人信息来识别在线学习的退学情况,他们所在的雅典市政技术学院协作通信研究所赞助了在线学习团队。使用的算法包括前馈神经通路、支持向量机(SVM)和确定性集成模糊 ARTMAP。
还有研究聚焦于新生在做出最终决定时所考虑的最重要因素。Sujitparapitaya(2006)定义了“休学”“维持”和“可转移”等术语,该案例研究的数据来自美国国家学生信息交换中心,使用的算法包括逻辑回归、神经网络和 C5.0(决策树),在预测一年级学生留校率方面,C5.0 规则归纳模型表现略优于其他两种。
本研究使用的实验数据集是一个多类学生教育数据集,来自尼日利亚中北部地区一所大学的计算机科学系。该数据集包含 153 名毕业学生的记录,预测变量包括性别、年龄和他们所修的 64 门课程,类标签是他们毕业时获得的最终成绩,最终成绩有五个不同的值:一等、二等上、二等下、三等和及格。
数据集首先按 80:20 的比例分为两部分,80%的数据进行 10 折交叉验证(10 - FCV),其余 20%作为验证集用于测试阶段。即 122 个样本用于训练/构建四个 SVM 模型(使用线性、多项式、径向基和 S 型 SVM 核函数),31 个样本作为验证测试集来评估开发的 SVM 混合规则提取方法的性能。
超级会员免费看
订阅专栏 解锁全文
24万+

被折叠的 条评论
为什么被折叠?



