运用数据挖掘识别影响大学生成绩因素的研究
1. 数据挖掘算法概述
数据挖掘中有多种重要算法,它们在不同场景下发挥着关键作用:
-
线性回归
:通过将数据拟合到线性方程来建模两个变量之间的关联。模型的准确性由均方误差(MSE)评估,公式为 (MSE = \frac{1}{n}\sum_{i = 1}^{n}(\hat{y}_i - y_i)^2) 。当模型复杂度增加时,方差会增大,偏差会减小。方差是指在不同数据集上参数估计的变化,偏差则是模型估计值与真实值的距离。
-
逻辑回归
:用于描述一个二元因变量与一个或多个名义、有序、区间或比率级别的自变量之间的关系。其模型准确性体现在对观测值的正确分类能力上,预测误差低的模型能有较高的正确分类观测值比例和较低的错误分类观测值比例。
-
神经网络
:是一种用于数据处理的数据挖掘算法,尤其擅长识别数据中一系列因素或模式之间的关键关系。可用于模式分类、时间序列分析、预测和聚类等挖掘任务。由于现实世界的数据和关系本质上是非线性的,传统线性工具在数据挖掘中可能存在显著偏差,而神经网络的非线性和非参数性质使其更适合处理复杂的数据挖掘问题,能应对具有不确定模式或包含不完整和嘈杂信息且有大量因素的数据。
2. 教育数据挖掘的定义与应用场景
教育数据挖掘(EDM)是一个新兴领域,专注于开发探索源自教育环境的独特数据的技术,并利用这些策略更好地理解学生及其学习环境。它研究的领域广泛,包括从教育软件中的个体学习、计算机支持的协作学习、计算机自适应测试,以及与学生课程不及格或辍学相关的因素等。在教育中应用数据挖掘有诸多潜在场景,如改进学生模型、制定教学支持策略、做出开发更好学习框架的决策、提高学生成绩、降低学生辍学率等。
3. 教育数据挖掘的近期研究方向
数据挖掘在多个行业都有广泛应用,在教育行业也不例外,近期的研究主要集中在以下几个方面:
-
学生建模
:旨在通过对学生的技能和知识进行建模来构建认知模型。运用数据挖掘技术分析学生的热情、幸福感、学习方法和情绪状态等。例如,使用逻辑回归、支持向量机和决策树来测试智能辅导系统中学生心理模型等不同预测类型数据挖掘活动的结果;通过顺序模式挖掘构建学生模型,实现知识的自动获取;采用聚类和分类方法降低构建用户模型的开发成本,并实现智能学习环境中的可迁移性。
-
学生数据可视化
:通过图形技术对不同行为的教育数据进行可视化是一种数据挖掘方式。可以对学生的在线活动,如学习参与度、回答情况、错误、出勤情况、教师对学生作业的评价、讨论概述、资源访问以及测验和作业结果等信息进行可视化解读。
-
为课程创建者提供支持
:目的是为课程创建者或行政人员在决策时提供建议,以确定提高学生学习效果和形成教学资源的方式。例如,使用聚类、关联规则、分类、顺序模式分析、依赖建模和预测等方法来改进基于网络的学习环境,评估学习过程;运用聚类分析、关联分析和基于案例的推理来建立课程工具并分配不同难度级别的作业;开展相关研究以查找与教师相关的信息,进一步分析学生数据,或识别自适应学习环境中的教学要素和评估方法。
-
学生分组
:主要目标是根据学生的个体行为生成学生类别。不同研究人员在该领域开展了多项研究,如使用聚类分析将一组学生的任务聚类成子部分,以识别聚类中实例的共同特征;基于从在线课程收集的数据,使用模糊聚类算法分析学习者的个性和学习风格;一些研究人员使用聚类和贝叶斯网络根据学生的技能对学生进行分组,还使用K - 均值聚类算法对在线学习记录、考试成绩和作业成绩中表现出相似学习行为的学生进行分组。
-
社交网络分析
:用于根据社交关系(如友谊、信息交流或协作关系)对人进行分类。在教育领域,使用不同的数据挖掘方法挖掘社交网络,其中协作过滤是最常用的教育数据过滤方法,通过识别学生喜好之间的异同来提供推荐,并提出开发电子学习推荐服务系统。
-
学生成绩预测
:一些研究致力于确定影响学生成绩的因素。使用数据挖掘算法通过Moodle使用数据对学生的期末考试成绩进行分类;运用前馈神经网络和反向传播算法预测学生的成绩;一些研究人员使用朴素贝叶斯算法预测学生的表现,不同的基于规则的系统用于预测电子学习环境中的学生成绩;还有研究通过对基于网络系统中的日志数据进行特征检查,用于学生成绩的预测、监测和评估;使用回归和决策树算法预测大学生的满意度;运用不同的回归技术,如局部加权线性回归、线性回归、模型树、神经网络和支持向量机,预测开放大学学生的成绩,以及预测高中生在大学成功的可能性。
4. 研究的意义与问题提出
大多数现有研究使用统计方法进行分析,很少有基于数据挖掘算法来预测学生未来以及他们所使用的教育环境或工具的研究。这促使研究人员使用数据挖掘算法进行分析,并评估模型的准确性。数据挖掘是教育工作者提取重要数据、做出与教学发展和改进教学设计相关决策的重要技术。当确定了激励学生在高等教育中取得优异成绩的因素后,参与教育决策的关键人员可以通过观察一组学生的属性值模式轻松做出预测,并利用分析结果引导学生在高等教育中取得成功。然而,尽管该领域已经进行了许多研究,但大多数研究认为需要使用不同算法重新进行分析以测试研究的准确性。由于现有研究的准确性水平有限,难以在实际环境中实施,导致课程创建者仍无法根据当前入学学生的水平设计课程,机构决策者也无法做出准确决策以提高组织的利润。本研究旨在确定影响学习质量的因素、研究所教学学习过程的标准如何提高,以及如何通过更好的服务提高业务利润。
5. 研究方法
为了克服上述问题,进行了一项全面的研究,以确定影响大学生成绩的因素,研究基于数据库知识发现(KDD)过程的步骤进行:
-
理解业务背景
:通过研究教育机构中可以通过应用数据挖掘解决的现有问题来理解业务背景。可以通过阅读类似的研究并采访教育工作者和学生来实现。
-
理解数据
:在实际分析开始之前,需要对数据集进行理解,这始于数据预处理,这是KDD过程中获得高质量输出的最重要任务。本研究选择的数据集包含13个属性,用于描述注册技术学位课程的学生样本,具体属性如下表所示:
| Attribute | Description |
| — | — |
| Sex | Student’s gender (binary - Male: M, Female: F) |
| Age | Student’s age (numeric) |
| Fjob | Does the student’s father have a job (binary: yes, no) |
| Failure | Does student have previous failure modules (binary: yes, no) |
| ExtraPayment | Has the student done extra payment (binary: yes, no) |
| MoreYears | Has the student stayed more than three years (binary: yes, no) |
| S1 | Student’s GPA of semester 1 (numeric: from 0–4) |
| S2 | Student’s GPA of semester 2 (numeric: from 0–4) |
| S3 | Student’s GPA of semester 3 (numeric: from 0–4) |
| S4 | Student’s GPA of semester 4 (numeric: from 0–4) |
| S5 | Student’s GPA of semester 5 (numeric: from 0–4) |
| S6 | Student’s GPA of semester 6 (numeric: from 0–4) |
| IsPass | Has the student passed the degree (binary: yes, no) |
以下是研究方法的mermaid流程图:
graph LR
A[理解业务背景] --> B[理解数据]
B --> C[数据准备]
C --> D[数据挖掘]
D --> E[评估模型]
6. 数据准备的具体步骤
收集到的数据如果来自问卷或调查,需要进行电子记录,并转换为适合在R软件包中进行分析的格式。本研究的数据集有3794个实例,首先进行主成分分析(PCA),在降维技术下生成一组线性不相关的变量组成的新数据集。忽略累积比例较低的变量,选择其他变量进行分析。使用中位数插补(特征提取和特征约简算法)处理所有缺失值和不完整值,对于多个变量有较多缺失值的记录,采用案例删除的方法将其从数据集中移除。所选数据集中有2307名男学生和1487名女学生,分别占比60.8%和39.2%。
7. 数据挖掘的算法选择与应用
在预处理后的样本数据上应用数据挖掘算法,使用R统计软件包,通过各种库和方法支持数据挖掘。将数据集输入分类算法进行分类,输入数据集由属性的向量值和相应的类别组成。在分析中,将数据集分为训练数据集和测试数据集,训练集用于训练模型,测试数据集用于衡量模型从训练数据中学到的程度。本研究应用了以下三种分类算法:
- 朴素贝叶斯算法
- 决策树算法
- 随机森林算法
为了得到更好的分类模型,需要对各种数据挖掘算法的结果进行评估,使用5折交叉验证方法评估分类准确性,重复多次交叉验证(k次),每次使用一个子集作为测试集,并记录预测准确性、Kappa统计量、精确率、召回率和F - 分数等指标。
在研究开始时,分析输入属性的影响,使用R软件包进行信息增益/熵、增益比和卡方检验,以确定每个属性的重要性。结果如下表所示:
| Attribute | Info gain | Gain ratio | Chi - squared |
| — | — | — | — |
| Sex | 0.008258 | 0.012333 | 0.12746 |
| Age | 0.013725 | 0.021807 | 0.167125 |
| Fjob | 0 | 0 | 0 |
| Failure | 0.020783 | 0.160653 | 0.202960 |
| ExtraPayment | 0.020783 | 0.160653 | 0.202960 |
| MoreYears | 0.020783 | 0.160653 | 0.202960 |
| S1 | 0.247752 | 0.244080 | 0.648855 |
| S2 | 0.270783 | 0.268776 | 0.661043 |
| S3 | 0.340661 | 0.321588 | 0.756178 |
| S4 | 0.224633 | 0.238065 | 0.603340 |
| S5 | 0.241414 | 0.249744 | 0.625158 |
| S6 | 0.247361 | 0.219418 | 0.648092 |
使用信息增益、增益比和卡方方法进行特征选择,增益比通过衡量属性值与类别的信息相关性来评估属性值,评估结果小于0.01的属性需要从数据集中排除。根据上述表格,除了“Fjob”(父亲的工作)属性外,数据集中的所有属性都用于进一步分析。
8. 三种算法的性能比较
对三种算法的性能进行测量,结果如下表所示:
| Criteria | Naïve Bayes | Decision tree (C5.0) | Random forest |
| — | — | — | — |
| Correctly classified instances | 1153 | 1220 | 1250 |
| Incorrectly classified instances | 111 | 44 | 14 |
| Prediction accuracy (%) | 92.17 | 97.1 | 98.9 |
| Kappa statistic (%) | 81.91 | 93.57 | 97.65 |
| Precision (%) | 89.403 | 94.85 | 95 |
| Recall (%) | 99.75% | 98.71% | 97 |
| F - measure (%) | 87.5 | 95.79 | 80 |
从结果可以看出,三种分类算法都得出了相对较好且彼此相似的结果,其中随机森林分类算法的结果最高。该分类方法得出,学生的年龄、不及格模块的数量以及过去学期的成绩(S1、S2、S3、S4、S5和S6)是影响学生最终成绩的最重要因素。
9. 研究的假设设定
-
原假设
:
- H0a:学生的年龄与最终成绩之间不存在关系。
- H0b:学生之前不及格模块的数量与最终成绩之间不存在关系。
- H0c:学生第一学年学期的成绩与最终成绩之间不存在关系。
- H0d:学生第二学年学期的成绩与最终成绩之间不存在关系。
- H0e:学生第三学年学期的成绩与最终成绩之间不存在关系。
-
备择假设
:
- H1a:学生的年龄与最终成绩之间存在关系。
- H1b:学生之前不及格模块的数量与最终成绩之间存在关系。
- H1c:学生第一学年学期的成绩与最终成绩之间存在关系。
- H1d:学生第二学年学期的成绩与最终成绩之间存在关系。
- H1e:学生第三学年学期的成绩与最终成绩之间存在关系。
通过以上研究方法和分析,本研究旨在深入了解影响大学生成绩的因素,为教育决策提供科学依据,以提高教学质量和学生的学习效果。
运用数据挖掘识别影响大学生成绩因素的研究
10. 研究结果分析
从前面的研究可知,随机森林分类算法得出学生的年龄、不及格模块的数量以及过去学期的成绩(S1、S2、S3、S4、S5和S6)是影响学生最终成绩的最重要因素。下面对这些因素进行详细分析:
-
年龄因素
:年龄可能影响学生的心理成熟度、学习动力和生活经验等。年龄较大的学生可能在心理上更成熟,更能合理安排学习时间和管理情绪,但也可能面临更多生活压力,如经济压力、家庭责任等,从而影响学习。而年龄较小的学生可能更有活力,但在学习的自主性和自我管理方面可能相对较弱。
-
不及格模块数量
:不及格模块数量反映了学生在前期学习中的困难程度和知识掌握情况。较多的不及格模块意味着学生在某些课程上存在较大的学习障碍,可能是对课程内容不理解,也可能是学习方法不当。这会影响学生后续的学习信心和学习进度,进而影响最终成绩。
-
过去学期成绩
:过去学期的成绩是学生学习能力和知识积累的直接体现。如果学生在前期学期成绩较好,说明他们掌握了有效的学习方法,具备较强的学习能力,在后续学习中更有可能取得好成绩。相反,如果前期成绩较差,可能需要花费更多的时间和精力来弥补知识漏洞,提高学习成绩。
11. 研究结果的实际应用
本研究的结果可以在教育领域得到广泛应用,以下是一些具体的应用场景:
-
课程设计
:课程创建者可以根据学生的年龄、不及格模块数量和过去学期成绩等因素,设计更符合学生实际情况的课程。例如,对于年龄较小、学习自主性较弱的学生,可以增加更多的引导式教学环节;对于不及格模块较多的学生,可以提供针对性的辅导课程。
-
教学策略调整
:教师可以根据学生的这些因素调整教学策略。对于成绩较差的学生,可以采用个性化的教学方法,如一对一辅导、小组合作学习等,帮助他们提高学习成绩。
-
学生辅导与支持
:学校可以根据学生的情况提供相应的辅导和支持服务。例如,为不及格模块较多的学生提供专门的学习辅导,为年龄较大、面临生活压力的学生提供心理咨询服务。
12. 研究的局限性与展望
本研究虽然取得了一定的成果,但也存在一些局限性:
-
数据局限性
:本研究使用的数据集可能存在一定的局限性,如数据的时间范围、数据的完整性等。未来的研究可以使用更广泛、更全面的数据集,以提高研究结果的准确性和可靠性。
-
算法局限性
:本研究只使用了三种分类算法,可能存在其他更适合的算法。未来的研究可以尝试使用更多的算法进行分析,以找到更优的分类模型。
-
因素局限性
:本研究只考虑了学生的年龄、不及格模块数量和过去学期成绩等因素,可能还有其他因素影响学生的最终成绩,如家庭背景、学习兴趣等。未来的研究可以考虑更多的因素,以更全面地了解影响学生成绩的因素。
展望未来,教育数据挖掘领域还有很大的发展空间。随着技术的不断进步和数据的不断积累,我们可以更深入地了解学生的学习行为和学习需求,为教育决策提供更科学的依据,从而提高教育质量和学生的学习效果。
13. 总结
本研究通过对大学生成绩影响因素的研究,得出以下结论:
- 运用数据挖掘算法(朴素贝叶斯算法、决策树算法和随机森林算法)对大学生成绩进行分类,随机森林算法的结果最好,能有效识别影响学生最终成绩的重要因素。
- 学生的年龄、不及格模块的数量以及过去学期的成绩是影响学生最终成绩的最重要因素。
- 研究结果可以应用于课程设计、教学策略调整和学生辅导与支持等方面,为教育决策提供科学依据。
同时,本研究也指出了存在的局限性,并对未来的研究方向进行了展望。希望本研究能为教育领域的发展提供有益的参考。
以下是研究的整体流程mermaid流程图:
graph LR
A[理解业务背景] --> B[理解数据]
B --> C[数据准备]
C --> D[数据挖掘]
D --> E[评估模型]
E --> F[结果分析]
F --> G[实际应用]
G --> H[局限性与展望]
以下是研究的关键信息总结表格:
| 研究环节 | 关键内容 |
| — | — |
| 数据准备 | 主成分分析、中位数插补、案例删除 |
| 数据挖掘算法 | 朴素贝叶斯算法、决策树算法、随机森林算法 |
| 重要因素 | 学生年龄、不及格模块数量、过去学期成绩 |
| 研究结论 | 随机森林算法结果最好,可应用于教育决策 |
| 研究局限 | 数据、算法、因素局限性 |
| 未来展望 | 使用更广泛数据、尝试更多算法、考虑更多因素 |
数据挖掘识别大学生成绩影响因素
超级会员免费看
71

被折叠的 条评论
为什么被折叠?



