第一篇博客
今天得到数据集之后
主要的任务是明确目的,并查阅资料和研读相关论文,寻找合适的算法模型
目的:
锻炼在真实数据集上完成数据挖掘任务的能力
任务
:给定学生校园刷卡行为数据集,利用deep forest 算法,对学生成绩进行预测。
步骤:
(1)下载deep forest 论文及代码,熟悉并运行deepforest。
http://www.lamda.nju.edu.cn/code_gcForest.ashx
(2)熟悉学生校园刷卡行为数据集,并根据deep forest程序的输入要求进行预处理
(3)输出预测结果并分析。
阅读的文献和模型思考
1,使用deepforest的思想对行为进行预测
2,使用libfm对特征进行成绩的回归性预测。
其中将使用ubuntu虚拟环境进行libfm模型的训练。相关工作在之前有些研究,曾使用libfm利用历史成绩来预测学生成绩。
https://blog.youkuaiyun.com/qq_41785852/article/details/106399202
https://blog.youkuaiyun.com/qq_41785852/article/details/105447806
将使用隐语义分析来进行预测,想着通过对行为提取行为特征,使用mcmc算法,马尔可夫链蒙特卡罗算法(MCMC),MCMC方法是用来在概率空间,通过随机采样估算兴趣参数的后验分布。采用马尔可夫链进行采样。具体算法简介参考https://link.zhihu.com/?target=http%3A//www.cnblogs.com/pinard/p/6625739.html
3,使用时序学习模型来进行历史成绩的分析与预测。
下面是阅读到的南京大学关于时序学习相关方面的研究。
file:///E:/2019MLAworks/Research%20Title%203%20-%20面向时序数据的多示例多标记学习MIML%20learning%20for%20Sequential%20data/材料1-Zhi-Hua%20Zhou_Multi-Instance%20Multi-Label%20Learning.pdf