课题研究的内容主要有三部分,即数据获取、数据分析、数据可视化。
数据获取:基于python爬取新能源汽车相关销售数据:销量,评价,品牌价格,性能介绍等并存储到hadoop分布式系统中。
清洗分析数据:采用基于内存计算的spark计算框架结合高吞吐的HDFS分布式文件系统,对车辆销售数据进行计算和分析。
数据可视化 :对分析出来的结果集进行可视化展示是大数据分析流程中很重要的一个层面。对于用户来说,单纯的数字展现在其面前是没有任何效果的。所以,我们需要利用数据可视化技术,将Hadoop数据分析平台计算分析的结果集以曲线图、柱状图等表格的形式进行可视化展示,使得分析出来的数据更加清晰明了。