- 博客(6)
- 收藏
- 关注
原创 基于Hadoop对飞机航班大数据的存储与运算
缺失值填充是指使用插补和估计等方法,填补数据中的缺失值。数据平滑是指通过移动平均、滤波和插值等方法,消除数据中的噪声和抖动。以携程为例获取飞机航班数据,本次主要爬取航班号、机型、出发及到达时间、出发及到达城市、出发及到达机场、准时率、价格、航司、航班计划等等字段数据,由于时间问题,只爬取北京出发的所有航班。程序运行完毕后,会在HDFS的根目录下生成output目录,并在output目录中生成文件,程序执行结果即存放于该文件中。数据清洗包括识别和处理数据中的异常值和噪声数据,确保数据的准确性和一致性。
2024-10-14 12:50:38
656
原创 基于Echarts对蔬菜销售数据分析的数据可视化平台
在项目实施过程中,我们首先明确了项目的需求和目标,展示多种类型的数据和图表。之后,我们用本学期学习的ECharts作为数据可视化库,利用其丰富的图表类型和强大的交互能力,结合Web前端技术,构建了数据大屏的界面。在实施过程中,我们遇到了一些挑战,比如:如何选择合适的图表类型来展示不同类型的数据?通过不断的探索和实践,我们成功地解决了这些问题,并完成了数据大屏的开发和部署。
2024-07-03 16:41:29
1306
2
原创 2024/06/07 09:04:08 - 表输出.0 - ERROR (version 9.4.0.0-343, build 0.0 from 2022-11-08 07.50.27 by buil
如果没有,请确保你使用的是正确的列名。:根据错误消息中的提示,尝试处理列名前的特殊字符。然后新建一个转换,按照具体的步骤“输入”,“输出”,连接Mysql数据库,再添加文本文档处,字段这一选项一定要“获取字段”并进行预览。:仔细检查你的数据转换或作业设置,确保正确指定了目标表以及要插入或更新的列。:确保连接到数据库的用户具有足够的权限执行所需的操作。没有这一列,于是我将Mysql里面的设计表的第一列改成“id”,同样.txt文档中也要改成id。转换或作业,以确保它们与新的数据库架构匹配。
2024-06-07 10:05:58
3136
原创 ERROR Metricssystem: sink class org.apache.spark.metrics.sink.Metricsservlet cannot be instantiated
错误原因:导入的依赖版本不匹配。或者是以下版本的配对。
2024-06-02 09:30:58
674
原创 Spark大数据快速运算——案例分析:Spark RDD实现单词计数
使用IDEA软件,在项目的spark.demo包中新建一个WordCount.scala类中然后向其写入单词计数的程序。
2024-05-28 09:19:48
762
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅