05、Spark

本文介绍了Spark shell连接到Spark集群执行作业的相关内容。Spark shell是与Spark集群的一种交互方式,每次action对应一个job。还说明了连接方式指定,以及在集群上实现word count的操作,除文件路径指定为hdfs路径外,与local模式基本相同。

05、Spark shell连接到Spark集群执行作业

5.1 Spark shell连接到Spark集群介绍

Spark shell可以连接到Spark集群,spark shell本身也是spark的一个应用,是和Spark集群的一种交互方式。每次action动作的执行,都会对应一个job。

5.2 连接方式指定

#进入Spark bin目录
$>cd /soft/spark/bin

#连接到Spark master的RPC端口
$>spark-shell --master spark://s101:7077

注意:spark://s101:7077地址是在spark webui中显式的Spark master RPC端口,如下图所示:

微信截图_20180609230607

连接成功,进入如下画面:

微信截图_20180609233105

5.3 在集群上实现word count

启动spark-shell后,读取hdfs上的文件,实现word count。操作步骤和在local模式下没有本质的不同,除了文件路径指定的是hdfs路径之外,其他部分均是相同的。shell操作如下:

$scala>sc.textFile("hdfs://mycluster/user/centos/1.txt")
    .flatMap(_.split(" "))
    .map((_,1))
    .reduceByKey(_+_)
    .collect

执行之后,运算结果如下图所示:

微信截图_20180610075819

查看spark webui界面显示结果如下图所示:

微信截图_20180610080009

微信截图_20180610080029

微信截图_20180610080102

转载于:https://www.cnblogs.com/xupccc/p/9543971.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值