# 0 简介
今天学长向大家介绍一个机器视觉的毕设项目
毕设分享 基于hadoop大数据教育可视化系统(源码+论文)
项目获取:
https://gitee.com/assistant-a/project-sharing
基于hadoop和echarts的教育大数据可视化系统
一、摘 要
在线教育平台现在是教育体系的重要组成部分,在当前大数据时代的背景下,促进教育机构建立统一平台、统一资源管理的数字化教学系统。如何评估系统平台的健康程度、学生的学习体验和在线课程的质量对于课程的教师和学校的管理人员都是非常重要的,这是进行数据分析的主要目的。可视化是一个重要的途径,它能够帮助大数据获得完整的数据图表并挖掘数据的价值,大数据分析离不开可视化这一工具的推动。
基于hadoop和echarts的教育大数据可视化系统,以B/S模式开发。通过Hadoop中Sqoop进行数据导入转换。以MapReduce构建数据分析,数据分析维度包括每日登录人数分析、平均学习时长分析、学习行为次数分析、每日活跃情况分析和分时段学习人数分析。最终使用ECharts可视化工具来对在线教育平台在学习过程中产生的数据进行可视化大屏展现,让更多人感受到可视化大数据的魅力。
二、相关理论和技术介绍
2.1 大数据可视化研究
大数据可视化是关于数据视觉表现形式的科学技术研究[9],将数据转换为图形或图像在屏幕上显示出来,并进行各种交互处理的理论、方法和技术。将数据直观地展现出来,以帮助人们理解数据,同时找出包含在海量数据中的规律或者信息,更多的为态势监控和综合决策服务。数据可视化是大数据生态链的最后一公里,也是用户最直接感知数据的环节。
数据可视化系统并不是为了展示用户的已知的数据之间的规律,而是为了帮助用户通过认知数据,有新的发现,发现这些数据所反映的实质。
大数据可视化的实施是一系列数据的转换过程。通过对原始数据进行标准化、结构化的处理,把它们整理成数据表。将这些数值转换成视觉结构,通过视觉的方式把它表现出来。例如将高中低的风险转换成红黄蓝等色彩,数值转换成大小。将视觉结构进行组合,把它转换成图形传递给用户,用户通过人机交互的方式进行反向转换,去更好地了解数据背后有什么问题和规律。
传统的显示技术已很难达到可以完美展示出大规模、高纬度、非结构化数据层出不穷数据的需求,随着人们对大数据技术的不断应用和机器学习的不断深入,数据可视化越来越受到人们的欢迎和认可[9]。那么,应运而生的有哪些新的展示方式呢?首先,不得不提到的一定的是大屏了。高清大屏幕具有超大画面、纯真彩色、高亮度、高分辨率等显示优势, 结合数据实时渲染技术、GIS空间数据可视化技术,实现数据实时图形可视化、场景化以及实时交互,让使用者更加方便地进行数据的理解和空间知识的呈现[10],可应用于指挥监控、视景仿真及三维交互等众多领域.另外VR、AR、MR[11]、全息投影…这些当下最火热的技术也已经被应用到游戏、房地产、教育等各行各业,可以预见的是数据可视化也能与这些技术擦出有趣的火花,比如带来更真实的感官体验和更接近现实的交互方式,使用户可以完全“沉浸”到数据之中。而在不远的未来,触觉、嗅觉甚至味觉,都可能成为我们接受数据和信息的感知方式[12]。
2.2 Java语言
Java语言是一种半动态的支持多平台的面向对象高级语言,其有着悠久的历史却还在换发生机。Java语法严谨,面向对象的思想更是划时代的标志,简单易用,高并发稳定,适合大型系统的开发[13]。
2.3 Idea开发环境
IDEA是一款Java的IDE,它集成了J2EE开发的常用插件,能够快速提高团队的合作和开发效率,该软件实成自动编译,检查错误,尤其在代码智能助手、自动代码提示等方面功能强大。
2.4 Hadoop生态圈技术
HDFS
一种分布式文件系统,提供对应用程序数据的高吞吐量访问,HDFS以流式数据访问模式来存储超大文件,运行于商用硬件集群上[14]。
MapReduce
基于YARN的系统,是一种可用于数据处理的编程模型,用于并行处理大型数据集,MapReduce任务过程分为两个处理阶段:Map阶段和Reduce阶段。每个阶段都是以键值对作为输入和输出,其类型是由程序员来选择[14]。
HBase
HBase是一个在HDFS上开发的面向列的分数式数据库,该技术是Google论文“Bigtable:一个结构化数据的分布式存储系统”的开源实现,它自底向上地进行构建,能够简单地通过增加节点来达到线性扩展[14],解决了RDBMS的可伸缩性问题。
Sqoop
Sqoop允许用户将数据从结构化存储器抽取到Hadoop中[14],用以关系型数据和Hadoop之间数据迁移,抽取的数据数据可以被MapReduce程序使用[14]。
2.5 Echarts
ECharts是由百度开发的交互式可视化图表控件,兼容主流浏览器,并提供丰富的中文API接口和文档,提供直观、交互、个性化的数据图表[15],该技术也是免费,其高可用性和易用性也是深受国人喜爱。
2.6 开发环境
-
硬件环境
-
-7300CPU 16g内存 1T硬盘
-
软件环境
-
IntelliJ IDEA 2018.1.5 x64、Eclipse4.5.2开发工具
-
Windows7/Windows10 64位系统
-
Google Chrome 73.0.3683.103浏览器
VMware Workstation 14 Pro 14.1.2 build-8497320
Hadoop 2.7.3、HBase 1.3.1