Hadoop集群运行Spark应用程序

最新推荐文章于 2024-07-13 09:47:47 发布

BigData_老李

最新推荐文章于 2024-07-13 09:47:47 发布

阅读量705

点赞数

CC 4.0 BY-SA版权

分类专栏： # Hadoop 文章标签： linux hadoop Spark

本文为博主原创文章，未经博主允许，不得转载！！

本文链接：https://blog.youkuaiyun.com/qq_52128187/article/details/131658408

Hadoop 专栏收录该内容

12 篇文章

订阅专栏

文章详细介绍了如何在Linux环境下启动Spark集群，包括先启动Hadoop，然后运行Spark的样例程序SparkPi。接着，展示了如何在独立集群中使用spark-shell，创建并上传测试文件到Hadoop文件系统，以及执行读取和统计文件操作。最后提到了通过Web界面监控Spark应用的运行状态。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

启动Spark集群

先启动hadoop,再启动Spark,具体参考链接

对Linux系统对Spark开发环境配置_Matrix70的博客-优快云博客

运行Spark安装好以后自带的样例程序SparkPi

spark-submit --class org.apache.spark.examples.SparkPi 
--master spark://master:7077 examples/jars/spark-examples_2.12-3.2.0.jar 
100 2>&1 | grep "Pi is roughly"

运行结果：

在独立集群中运行spark-shell

创建测试文件testspark

#在/opt下新建一个文件testspark,滚键盘
vi testspark
#上传此文件至hadoop文件系统根目录
hadoop fs -put /opt/testspark /
#查看文件
hadoop fs -ls /

启动spark-shell

#进入bin
cd /usr/local/spark/bin/
#bin目录下启动spark-shell
spark-shell --master spark://master:7077

输入代码进行测试

#读文件
val textFile = sc.textFile("hdfs://master:9000/README.md")
#统计一下
textFile.count()
#查看
textFile.first()

独立集群管理Web界面查看应用的运行情况

浏览器进入下述链接

http://192.168.20.128:8080/

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

BigData_老李

关注关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
打赏
打赏
打赏举报

举报

专栏目录

大数据经典技术解析：Hadoop+Spark大数据分析原理与实践

AI天才研究院

08-04

1458

大数据时代已经来临。随着互联网、移动互联网、物联网等新兴技术的出现，海量数据开始涌现。而在这些海量数据的基础上进行有效的处理，成为迫切需要解决的问题之一。Apache Hadoop和Apache Spark是目前主流开源大数据框架。由于其易于部署、高容错性、并行计算能力强、适应数据量大、可编程、社区支持广泛等特点，大大提升了大数据应用的效率和效果。

使用Docker搭建Hadoop集群和Spark集群

anron的专栏

08-17

1477

# 行命令退出安全模式 docker exec -it namenode hadoop dfsadmin -safemode leave # create the input directory on HDFS hadoop fs -mkdir -p input # create directory and files insdie namenode mkdir input echo "Hello World" >input/f1.txt echo "Hello Docker" >input

参与评论您还未登录，请先登录后发表或查看评论

Hadoop与Spark整合

czliuming的博客

05-24

3855

搭建Hadoop集群搭建Hadoop集群请参考博文《Hadoop集群搭建及wordcount测试》，在此不再赘述。安装Scala 在scala官网下载合适的版本，将scala安装包拷贝到linux安装目录，执行解压缩命令进行安装： sudo tar -zxvf scala-2.11.7.tgz -C /usr/opt/spark解压缩完成后，进入etc目录，修改profile，追加以下内容e

Hadoop + Spark 部署

m0_55641196的博客

10-19

1868

保证 jdk、hadoop、spark 三个文件夹在 usr/ 目录下（/home/usr/jdk）自己找要安装的hadoop版本，下载 .tar.gz文件，同上，解压缩、改名，放在 usr 目录下。把 github 上的 setenv.sh 和 submit.sh 放在usr 目录下。submit.sh 提交代码文件到spark。普通用户，直接在官网上下载包上传到服务器。不用管网上教程改 ./bashrc 文件。修改文件的配置信息。

基于Hadoop安装spark集群

小刘的博客

04-01

2842

基于Hadoop的spark环境搭建已有环境情况 Hadoop HA Java 软件版本 Hadoop 2.7.2 Java 1.8.0_301 Scala 2.11.8 Spark 2.1.0 下载地址 Scala下载地址：Index of /dist/spark Spark下载地址：Index of /dist/spark 安装下载好的安装包，进行解压解压命令如下：tar -zxvf 压缩包 -C 解压所至的目录 tar -zxvf scala-2.11.8.tgz.

Spark和Hadoop环境启动

m0_67146599的博客

06-27

552

3.再开一个终端（ssh hadoop103 连接103 ，start-yarn.sh）4.再开一个终端（ssh hadoop104 连接104 ，start-yarn.sh）5.start-all.sh (若不行，.sbin/start-all.sh )1.打开虚拟机（三台全部打开），打开终端。7.再开一个终端,输入 jps。1.打开三台虚拟机，打开终端。5.jps(在三个终端都写)

本地Spark程序提交到hadoop集群运行流程

tf_dev的博客

08-15

2958

1.本地环境准备本文是将eclipse开发环境下的maven+Spark+scala程序移植到集群环境上执行过程，写的很粗糙，见谅。本地用eclipse编写Spark小程序，完成从txt文件读取数据操作。本地maven+Spark+scala环境就不多说了，如果配置出问题，就下载最新的eclipse然后从商店装插件吧。注意在maven的配置文件pom.xml中插入Spark引用：

Hadoop集群搭建部署与MapReduce程序关键点个性化开发.doc

02-26

本文将详细阐述如何搭建Hadoop集群以及进行MapReduce程序的关键点个性化开发。首先，我们来看任务1——Hadoop集群的部署。这一步至关重要，因为它为整个大数据处理系统提供了基础架构。在虚拟机中安装Ubuntu Kylin...

Spark搭建/Hadoop集群

weixin_55946594的博客

10-30

2841

Spaek基础搭建；基于Hadoop集群.

搭建hadoop+spark完全分布式集群环境

weixin_46305053的博客

07-13

1668

tar -zxvf jdk-8u181-linux-x64.tar.gz -C /home/hadoop/apps #解压到apps下。进入/home/hadoop/apps/hadoop-2.7.6/etc/Hadoop。sudo vi /etc/profile #修改配置文件。start-slaves.sh //启动从节点。start-master.sh //启动主节点。拷贝到slave1和slave2中。拷贝到slaves1,slaves中。//将其拷贝到其他机子上。

【大数据分析Hadoop + Spark 】10分钟搭建Hadoop（伪分布式）+ Spark（Local模式）环境

qq_56022768的博客

05-28

4688

【大数据分析Hadoop + Spark 】10分钟搭建Hadoop（伪分布式）+ Spark（Local模式）环境

hadoop，spark如何集成Mino

Meta.Qing的博客

03-27

2307

MinIO是一个S3兼容的对象存储系统，可以与Hadoop和Spark等大数据框架进行集成，实现数据存储和分析。

启动spark与hadoop的三个节点的命令

m0_48275578的博客

04-26

1277

docker run -v E:\COURSE\spark:/home -it --network hadoop -h "node01" --name "node01" -p 9870:9870 -p 8088:8088 -p 4040:4040 -p 8080:8080 -p 50070:50070 -p 9001:9001 -p 8030:8030 -p 8031:8031 -p 8032:8032 -p 8042:8042 -p 19888:19888 pyspark_hadoop_centos /b

Hadoop 、Zookeeper、Spark笔记

weixin_45067618的博客

10-14

1167

自己随手记的

spark启动，启动hadoop关闭步骤

qq_45371603的博客

02-29

969

sbin/start-all.sh 启动所有的Hadoop守护进程。包括NameNode、 Secondary NameNode、DataNode、ResourceManager、NodeManager sbin/stop-all.sh 停止所有的Hadoop守护进程。包括NameNode、 Secondary NameNode、DataNode、ResourceManager、NodeManag...

hadoop和spark分布式集群搭建及运用

qq_22583741的博客

01-31

3638

hadoop和spark分布式集群搭建及简单运用 hadoop和spark分布式集群搭建及简单运用 1Hadoop集群部署 1-1Hadoop简介 1-2 环境及软件说明 1-2-1 虚拟机软件 1-2-2 JDK 1-2-3 Xshell 1-2-4 hadoop安装包 1-3 配置基础环境 1-3-1固定IP地址 1-3-2 安装配置JAVA环境 1-3-3 修改Hostnam

spark 与 hadoop的hdfs的连接（亲测有效）