
大数据
文章平均质量分 64
zhangz1z
From ZZULI
展开
-
Hadoop分布式集群搭建时只显示一个节点
由于刚开始用的是单机环境的Hadoop,后面克隆了两台slave机器,但是在启动Hadoop集群时Yarn能看到3个节点,而在HDFS Web UI页面却只有一台机器。原创 2023-06-01 14:03:22 · 1481 阅读 · 0 评论 -
大数据分析实训——使用Spark SQL分析美国新冠肺炎疫情
项目思路:使用Spark SQL读取文件数据集来生成Data Frame对象,再利用Spark SQL函数对Data Frame对象进行数据分析,并将结果存入MySQL数据库,再以Web网页的形式对分析结果进行可视化,其中使用Spring Boot读取数据库把数据以JSON形式返回给Vue,ECharts对JSON结果进行分析,得到图表。项目环境:JDK(v11.0.13)Spark(v3.2.1)Scala(v2.13.8)Spring Boot(v2.6.7)Vue(v3.2.23)EC原创 2022-06-02 11:48:47 · 3135 阅读 · 2 评论 -
Spark SQL上海摩拜共享单车数据分析
1 生成DataFrame对象val bikeDF = sqlContext.read .format("csv") .option("header", "true") .option("timestampFormat", "yyyy-MM-dd HH:mm") .load("src/main/scala/com/zhangz1/mobike_shanghai_sample_updated.csv")2 展示数据bikeDF.show()3 根据原创 2022-04-23 10:47:14 · 1839 阅读 · 0 评论 -
Windows下配置Hadoop及Spark环境
前言教程所用各版本说明一 JDK环境配置由于项目用的JDK17,所以单独给Hadoop配了JDK11,建议直接配置JAVA_HOME环境变量为JDK11,因为后面Spark需要用到JAVA_HOME下载jdk-11.0.13_windows-x64_bin.zip链接:https://www.oracle.com/in/java/technologies/javase/jdk11-archive-downloads.html单独修改Hadoop的话,需要在Hadoop目录下的etc\hado原创 2022-03-29 16:48:30 · 10189 阅读 · 22 评论 -
Intellij IDEA创建Scala项目
一、下载Intellij IDEA插件Scala二、安装Scala SDKhttps://www.scala-lang.org/download/建议下载*.zip文件,免安装,然后把scala目录下的bin目录添加到系统路径,这样cmd输入scala就可以启动scala -version --> 查看版本scala --> 进入scala解释器 (类似于python)quit --> 退出三、创建S原创 2022-03-09 21:06:50 · 3487 阅读 · 0 评论 -
Spark RDD编程
一、 实验目的:1.熟悉 Spark RDD的基本操作。2.熟悉使用RDD编程解决具体问题的方法。二、 实验内容和要求:编程实现输出前3个学生的信息、文件中前3个学生的平均分、文件中前3个学生的最高分、文件中前3个学生的平均分、总分数最高的前三名、Scala成绩最高的前3名、Python成绩最高的前3名、Java成绩最高的前3名。未使用Scala或pyshark,仅通过python实现然后在spark中运行py文件三、 实验过程:(1) 安装Spark,验证Spark是否安装成功启动S原创 2022-01-07 20:57:54 · 3198 阅读 · 0 评论 -
常用的HDFS操作
首先启动Hadoopstart-all.sh如果出现Starting namenodes on [localhost]localhost: hadoop@localhost: Permission denied (publickey,password).Starting datanodeslocalhost: hadoop@localhost: Permission denied (publickey,password).Starting secondary namenodes [z-vi原创 2021-12-13 22:20:43 · 3876 阅读 · 0 评论