在spark集群中运行程序遇到的一些问题

本文介绍在Yarn模式下如何使用Spark进行数据处理,包括数据上传至HDFS,本地与HDFS文件读取,及通过Eclipse打包并上传至Spark集群运行程序的方法。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

使用的是yarn模式,所以运行程序之前需要先将所用数据集传到hdfs上

//查看hdfs的目录
./hdfs dfs -ls
//新建一个data文件夹
./hdfs dfs -mkdir /data
//将文件上传到data文件夹下
./hdfs dfs -put /root/Readme.txt  /data

在程序中,读取文件可以读取本地文件,也有读取hdfs中的文件

val sc = new SparkContext(conf)
//在本地运行,读取本地磁盘中的文件,只需写明路径即可
val data = sc.textFile("D:/data/Readme.txt")
//读取hdfs中的文件,下列两个方法都可
val data1 = sc.textFile("hdfs://master:9000/user/root/Readme.txt")
val data2 = sc.textFile("hdfs:///data/Readme.txt")

运行程序时,使用eclipse将程序打成jar包上传到spark集群中,使用如下命令运行程序

//在spark的bin目录下运行
./bin/spark-submit   --class CLASSNAME   --master spark://192.168.45.145:7077  /root/CLASSNAME.jar 
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值